6.14 本地模型

OpenClaw 支持使用本地运行的 AI 模型,但需要注意硬件要求和安全风险。

概述

本地模型部署的关键考虑因素:

  • 硬件要求 - 推荐 ≥24 GB GPU 显存
  • 安全风险 - 小模型更易受 prompt 注入攻击
  • 上下文长度 - OpenClaw 需要大上下文窗口
  • 安全防御 - 需要强大的注入攻击防御能力
安全警告
小型变体模型(如量化模型)更容易受到 prompt 注入攻击。生产环境请使用完整规格模型。

推荐配置

最低要求

  • GPU: NVIDIA RTX 4090 / A100 或更好
  • 显存: ≥24 GB
  • 系统内存: ≥32 GB
  • 存储: ≥100 GB SSD

推荐模型

OpenClaw 推荐使用完整规格的 MiniMax M2.1 模型:

  • 大上下文窗口(支持长对话)
  • 强大的指令遵循能力
  • 较好的 prompt 注入防御
  • 工具调用支持完善

使用 LM Studio

安装 LM Studio

  1. lmstudio.ai 下载安装
  2. 启动 LM Studio
  3. 下载 MiniMax M2.1 模型
  4. 启用 Responses API 服务器

启动本地服务

# LM Studio 默认端口 1234
# 确保启用 OpenAI 兼容 API

配置 OpenClaw

{
  "models": {
    "providers": {
      "lm-studio": {
        "type": "openai",
        "baseURL": "http://localhost:1234/v1",
        "apiKey": "not-needed"
      }
    },
    "routing": {
      "default": "lm-studio/minimax-m2.1"
    }
  }
}

使用 Ollama

安装 Ollama

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# 启动服务
ollama serve

下载模型

# 下载大型模型(推荐)
ollama pull qwen2.5:72b

# 或其他支持工具调用的模型
ollama pull llama3.1:70b
ollama pull mistral:7b-instruct

配置 OpenClaw

{
  "models": {
    "providers": {
      "ollama": {
        "type": "ollama",
        "baseURL": "http://localhost:11434"
      }
    },
    "routing": {
      "default": "ollama/qwen2.5:72b"
    }
  }
}

混合模式

主备切换

本地模型作为主力,云端 API 作为后备:

{
  "models": {
    "mode": "merge",
    "providers": {
      "lm-studio": {
        "type": "openai",
        "baseURL": "http://localhost:1234/v1"
      },
      "openai": {
        "type": "openai",
        "apiKey": "${OPENAI_API_KEY}"
      }
    },
    "routing": {
      "default": "lm-studio/minimax-m2.1",
      "fallback": [
        "openai/gpt-4o",
        "openai/gpt-4o-mini"
      ]
    }
  }
}

任务分流

简单任务用本地模型,复杂任务用云端 API:

{
  "models": {
    "routing": {
      "rules": [
        {
          "condition": "simple_query",
          "model": "lm-studio/minimax-m2.1"
        },
        {
          "condition": "complex_reasoning",
          "model": "openai/gpt-4o"
        },
        {
          "condition": "code_generation",
          "model": "openai/gpt-4o"
        }
      ],
      "default": "lm-studio/minimax-m2.1"
    }
  }
}

性能优化

批处理

{
  "models": {
    "providers": {
      "lm-studio": {
        "batching": {
          "enabled": true,
          "maxBatchSize": 4,
          "maxWaitTime": "100ms"
        }
      }
    }
  }
}

缓存

{
  "models": {
    "cache": {
      "enabled": true,
      "ttl": "1h",
      "maxSize": "1GB"
    }
  }
}

GPU 配置

# LM Studio 设置
- GPU Layers: 全部加载到 GPU
- Context Length: 8192 或更大
- Batch Size: 根据显存调整
- Threads: CPU 核心数

安全加固

沙箱隔离

本地模型更需要严格的沙箱:

{
  "agents": {
    "defaults": {
      "sandbox": {
        "mode": "all",          // 强制所有工具使用沙箱
        "allowNetworkAccess": false,  // 限制网络访问
        "denyPatterns": [
          "~/.ssh/**",
          "~/.openclaw/**",
          "/etc/**"
        ]
      }
    }
  }
}

输入过滤

{
  "security": {
    "promptInjection": {
      "enabled": true,
      "strictMode": true,        // 本地模型用严格模式
      "blockSuspicious": true
    }
  }
}

监控和调试

性能监控

# 查看模型响应时间
openclaw models stats

# 监控 GPU 使用
nvidia-smi -l 1

# 查看模型日志
openclaw logs --component models

调试模式

# 启用详细日志
DEBUG=openclaw:models openclaw gateway start

# 或在配置中
{
  "logging": {
    "components": {
      "models": "debug"
    }
  }
}

故障排查

常见问题

模型响应慢

  • 检查 GPU 是否被其他进程占用
  • 减小 context length
  • 使用更小的批处理大小
  • 考虑量化模型(但注意安全风险)

显存不足

  • 使用更小的模型
  • 减小 context length
  • 启用 CPU offloading
  • 关闭其他 GPU 应用

连接失败

  • 确认 LM Studio/Ollama 正在运行
  • 检查端口是否正确
  • 测试 API 端点: curl http://localhost:1234/v1/models

成本对比

云端 API

  • ✅ 零前期成本
  • ✅ 按需扩展
  • ✅ 最新模型
  • ❌ 持续的使用成本
  • ❌ 需要网络连接

本地部署

  • ✅ 无使用成本
  • ✅ 数据隐私
  • ✅ 离线可用
  • ❌ 高昂的硬件成本
  • ❌ 维护负担
  • ❌ 模型更新滞后

最佳实践

  • 生产环境使用完整规格模型,不要量化
  • 始终启用沙箱和严格的安全策略
  • 设置云端 API 作为后备
  • 监控模型性能和安全事件
  • 定期更新模型到最新版本
  • 测试 prompt 注入防御能力
推荐

本地模型可行,但 OpenClaw 期望:

  • 大上下文窗口
  • 强大的 prompt 注入防御
  • 完善的工具调用支持

云端 API 通常能提供更好的体验和安全性。

更多信息
更多模型配置和性能优化请参考 官方文档