6.14 本地模型

OpenClaw 支持使用本地运行的 AI 模型,但需要注意硬件要求和安全风险。

概述

本地模型部署的关键考虑因素:

硬件要求 - 推荐 ≥24 GB GPU 显存
安全风险 - 小模型更易受 prompt 注入攻击
上下文长度 - OpenClaw 需要大上下文窗口
安全防御 - 需要强大的注入攻击防御能力

安全警告

小型变体模型(如量化模型)更容易受到 prompt 注入攻击。生产环境请使用完整规格模型。

启动本地服务

# LM Studio 默认端口 1234
# 确保启用 OpenAI 兼容 API

配置 OpenClaw

{
  "models": {
    "providers": {
      "lm-studio": {
        "type": "openai",
        "baseURL": "http://localhost:1234/v1",
        "apiKey": "not-needed"
      }
    },
    "routing": {
      "default": "lm-studio/minimax-m2.1"
    }
  }
}

使用 Ollama

安装 Ollama

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# 启动服务
ollama serve

下载模型

# 下载大型模型(推荐)
ollama pull qwen2.5:72b

# 或其他支持工具调用的模型
ollama pull llama3.1:70b
ollama pull mistral:7b-instruct

配置 OpenClaw

{
  "models": {
    "providers": {
      "ollama": {
        "type": "ollama",
        "baseURL": "http://localhost:11434"
      }
    },
    "routing": {
      "default": "ollama/qwen2.5:72b"
    }
  }
}

混合模式

主备切换

本地模型作为主力,云端 API 作为后备:

{
  "models": {
    "mode": "merge",
    "providers": {
      "lm-studio": {
        "type": "openai",
        "baseURL": "http://localhost:1234/v1"
      },
      "openai": {
        "type": "openai",
        "apiKey": "${OPENAI_API_KEY}"
      }
    },
    "routing": {
      "default": "lm-studio/minimax-m2.1",
      "fallback": [
        "openai/gpt-4o",
        "openai/gpt-4o-mini"
      ]
    }
  }
}

任务分流

简单任务用本地模型,复杂任务用云端 API:

{
  "models": {
    "routing": {
      "rules": [
        {
          "condition": "simple_query",
          "model": "lm-studio/minimax-m2.1"
        },
        {
          "condition": "complex_reasoning",
          "model": "openai/gpt-4o"
        },
        {
          "condition": "code_generation",
          "model": "openai/gpt-4o"
        }
      ],
      "default": "lm-studio/minimax-m2.1"
    }
  }
}

性能优化

批处理

{
  "models": {
    "providers": {
      "lm-studio": {
        "batching": {
          "enabled": true,
          "maxBatchSize": 4,
          "maxWaitTime": "100ms"
        }
      }
    }
  }
}

缓存

{
  "models": {
    "cache": {
      "enabled": true,
      "ttl": "1h",
      "maxSize": "1GB"
    }
  }
}

GPU 配置

# LM Studio 设置
- GPU Layers: 全部加载到 GPU
- Context Length: 8192 或更大
- Batch Size: 根据显存调整
- Threads: CPU 核心数

安全加固

沙箱隔离

本地模型更需要严格的沙箱:

{
  "agents": {
    "defaults": {
      "sandbox": {
        "mode": "all",          // 强制所有工具使用沙箱
        "allowNetworkAccess": false,  // 限制网络访问
        "denyPatterns": [
          "~/.ssh/**",
          "~/.openclaw/**",
          "/etc/**"
        ]
      }
    }
  }
}

输入过滤

{
  "security": {
    "promptInjection": {
      "enabled": true,
      "strictMode": true,        // 本地模型用严格模式
      "blockSuspicious": true
    }
  }
}

监控和调试

性能监控

# 查看模型响应时间
openclaw models stats

# 监控 GPU 使用
nvidia-smi -l 1

# 查看模型日志
openclaw logs --component models

调试模式

# 启用详细日志
DEBUG=openclaw:models openclaw gateway start

# 或在配置中
{
  "logging": {
    "components": {
      "models": "debug"
    }
  }
}

故障排查

常见问题

模型响应慢

检查 GPU 是否被其他进程占用
减小 context length
使用更小的批处理大小
考虑量化模型(但注意安全风险)

显存不足

使用更小的模型
减小 context length
启用 CPU offloading
关闭其他 GPU 应用

连接失败

确认 LM Studio/Ollama 正在运行
检查端口是否正确
测试 API 端点: curl http://localhost:1234/v1/models

成本对比

云端 API

✅ 零前期成本
✅ 按需扩展
✅ 最新模型
❌ 持续的使用成本
❌ 需要网络连接

本地部署

✅ 无使用成本
✅ 数据隐私
✅ 离线可用
❌ 高昂的硬件成本
❌ 维护负担
❌ 模型更新滞后

最佳实践

生产环境使用完整规格模型,不要量化
始终启用沙箱和严格的安全策略
设置云端 API 作为后备
监控模型性能和安全事件
定期更新模型到最新版本
测试 prompt 注入防御能力

概述

推荐配置

最低要求

推荐模型

使用 LM Studio

安装 LM Studio

启动本地服务

配置 OpenClaw

使用 Ollama

安装 Ollama

下载模型

配置 OpenClaw

混合模式

主备切换

任务分流

性能优化

批处理

缓存

GPU 配置

安全加固

沙箱隔离

输入过滤

监控和调试

性能监控

调试模式

故障排查

常见问题

模型响应慢

显存不足

连接失败

成本对比

云端 API

本地部署

最佳实践