OpenClaw 支持使用本地运行的 AI 模型,但需要注意硬件要求和安全风险。
概述
本地模型部署的关键考虑因素:
- 硬件要求 - 推荐 ≥24 GB GPU 显存
- 安全风险 - 小模型更易受 prompt 注入攻击
- 上下文长度 - OpenClaw 需要大上下文窗口
- 安全防御 - 需要强大的注入攻击防御能力
安全警告
小型变体模型(如量化模型)更容易受到 prompt 注入攻击。生产环境请使用完整规格模型。
推荐配置
最低要求
- GPU: NVIDIA RTX 4090 / A100 或更好
- 显存: ≥24 GB
- 系统内存: ≥32 GB
- 存储: ≥100 GB SSD
推荐模型
OpenClaw 推荐使用完整规格的 MiniMax M2.1 模型:
- 大上下文窗口(支持长对话)
- 强大的指令遵循能力
- 较好的 prompt 注入防御
- 工具调用支持完善
使用 LM Studio
安装 LM Studio
- 从 lmstudio.ai 下载安装
- 启动 LM Studio
- 下载 MiniMax M2.1 模型
- 启用 Responses API 服务器
启动本地服务
# LM Studio 默认端口 1234
# 确保启用 OpenAI 兼容 API
配置 OpenClaw
{
"models": {
"providers": {
"lm-studio": {
"type": "openai",
"baseURL": "http://localhost:1234/v1",
"apiKey": "not-needed"
}
},
"routing": {
"default": "lm-studio/minimax-m2.1"
}
}
}
使用 Ollama
安装 Ollama
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# 启动服务
ollama serve
下载模型
# 下载大型模型(推荐)
ollama pull qwen2.5:72b
# 或其他支持工具调用的模型
ollama pull llama3.1:70b
ollama pull mistral:7b-instruct
配置 OpenClaw
{
"models": {
"providers": {
"ollama": {
"type": "ollama",
"baseURL": "http://localhost:11434"
}
},
"routing": {
"default": "ollama/qwen2.5:72b"
}
}
}
混合模式
主备切换
本地模型作为主力,云端 API 作为后备:
{
"models": {
"mode": "merge",
"providers": {
"lm-studio": {
"type": "openai",
"baseURL": "http://localhost:1234/v1"
},
"openai": {
"type": "openai",
"apiKey": "${OPENAI_API_KEY}"
}
},
"routing": {
"default": "lm-studio/minimax-m2.1",
"fallback": [
"openai/gpt-4o",
"openai/gpt-4o-mini"
]
}
}
}
任务分流
简单任务用本地模型,复杂任务用云端 API:
{
"models": {
"routing": {
"rules": [
{
"condition": "simple_query",
"model": "lm-studio/minimax-m2.1"
},
{
"condition": "complex_reasoning",
"model": "openai/gpt-4o"
},
{
"condition": "code_generation",
"model": "openai/gpt-4o"
}
],
"default": "lm-studio/minimax-m2.1"
}
}
}
性能优化
批处理
{
"models": {
"providers": {
"lm-studio": {
"batching": {
"enabled": true,
"maxBatchSize": 4,
"maxWaitTime": "100ms"
}
}
}
}
}
缓存
{
"models": {
"cache": {
"enabled": true,
"ttl": "1h",
"maxSize": "1GB"
}
}
}
GPU 配置
# LM Studio 设置
- GPU Layers: 全部加载到 GPU
- Context Length: 8192 或更大
- Batch Size: 根据显存调整
- Threads: CPU 核心数
安全加固
沙箱隔离
本地模型更需要严格的沙箱:
{
"agents": {
"defaults": {
"sandbox": {
"mode": "all", // 强制所有工具使用沙箱
"allowNetworkAccess": false, // 限制网络访问
"denyPatterns": [
"~/.ssh/**",
"~/.openclaw/**",
"/etc/**"
]
}
}
}
}
输入过滤
{
"security": {
"promptInjection": {
"enabled": true,
"strictMode": true, // 本地模型用严格模式
"blockSuspicious": true
}
}
}
监控和调试
性能监控
# 查看模型响应时间
openclaw models stats
# 监控 GPU 使用
nvidia-smi -l 1
# 查看模型日志
openclaw logs --component models
调试模式
# 启用详细日志
DEBUG=openclaw:models openclaw gateway start
# 或在配置中
{
"logging": {
"components": {
"models": "debug"
}
}
}
故障排查
常见问题
模型响应慢
- 检查 GPU 是否被其他进程占用
- 减小 context length
- 使用更小的批处理大小
- 考虑量化模型(但注意安全风险)
显存不足
- 使用更小的模型
- 减小 context length
- 启用 CPU offloading
- 关闭其他 GPU 应用
连接失败
- 确认 LM Studio/Ollama 正在运行
- 检查端口是否正确
- 测试 API 端点:
curl http://localhost:1234/v1/models
成本对比
云端 API
- ✅ 零前期成本
- ✅ 按需扩展
- ✅ 最新模型
- ❌ 持续的使用成本
- ❌ 需要网络连接
本地部署
- ✅ 无使用成本
- ✅ 数据隐私
- ✅ 离线可用
- ❌ 高昂的硬件成本
- ❌ 维护负担
- ❌ 模型更新滞后
最佳实践
- 生产环境使用完整规格模型,不要量化
- 始终启用沙箱和严格的安全策略
- 设置云端 API 作为后备
- 监控模型性能和安全事件
- 定期更新模型到最新版本
- 测试 prompt 注入防御能力
推荐
本地模型可行,但 OpenClaw 期望:
- 大上下文窗口
- 强大的 prompt 注入防御
- 完善的工具调用支持
云端 API 通常能提供更好的体验和安全性。
更多信息
更多模型配置和性能优化请参考 官方文档。