Anything LLM 是一款轻量、开源、易部署的本地知识库工具，和 Ollama 搭配能完美实现「本地模型 + 私有化文档问答」，全程数据不联网，比 FastGPT/Dify 更轻量化。

核心优势

极简部署：无需复杂依赖，Docker / 本地脚本均可启动；
全本地化：模型（Ollama）+ 文档（Anything LLM）全在本地，隐私拉满；
适配性强：支持 PDF/Word/TXT/Markdown 等几乎所有文档格式；
灵活扩展：可自定义模型、嵌入向量、上下文长度，满足不同场景。

前置准备

已完成的基础

已安装 Ollama（参考之前的教程，能正常运行 qwen:7b-chat/glm4:7b 等中文模型）；

已安装 Docker（推荐，一键部署 Anything LLM；无 Docker 也可本地运行）；

硬件：至少 8GB 显存（跑 7B 模型）/ 16GB 内存（纯 CPU 运行）。

验证 Ollama 可用性

打开终端执行：

# 检查Ollama是否运行
ollama ps
# 测试模型响应（确保qwen:7b-chat已下载）
ollama run qwen:7b-chat "你好"

能正常返回结果说明 Ollama 没问题。

部署步骤

步骤 1：创建数据目录（持久化存储文档 / 配置）

# Windows（CMD）
mkdir C:\anything-llm-data

# Linux/macOS
mkdir -p ~/anything-llm-data

步骤 2：启动 Anything LLM 容器

docker run -d \
  --name anything-llm \
  --restart always \
  -p 3001:3001 \
  -v ~/anything-llm-data:/app/server/storage \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  mintplexlabs/anything-llm:latest

步骤 3：初始化配置

打开浏览器访问 http://localhost:3001，首次进入会引导配置；

设置管理员密码：创建账号密码（本地登录用，务必记住）；

选择 LLM 提供商：选「Ollama」，自动填充地址（http://host.docker.internal:11434），点击「Test Connection」测试连接（显示 Success 即成功）；

选择默认模型：下拉框选已下载的模型（如 qwen:7b-chat/glm4:7b）；

嵌入模型配置：推荐选「BAAI/bge-large-zh-v1.5」（中文嵌入效果最优，会自动下载）；

完成配置，进入 Anything LLM 主界面。

核心使用流程

步骤 1：创建工作区（Workspaces）

点击左侧「Workspaces」→「Create Workspace」；输入名称（如「公司知识库」「个人笔记」），选择默认模型 / 嵌入模型，点击创建。

步骤 2：上传文档

进入创建好的工作区，点击「Upload Files」；选择要上传的文档（PDF/Word/TXT 等，支持批量上传）；点击「Process Files」，等待文档解析 + 嵌入（7B 模型处理 100 页 PDF 约 5-10 分钟）。

步骤 3：本地问答

文档处理完成后，在右侧聊天框输入问题（如「这份合同的付款条款是什么？」「总结这份技术文档的核心功能」）；模型会基于本地文档内容回答，全程不联网，数据仅保存在本地目录。

alt

关键配置优化（提升问答效果）

模型参数调整

在工作区「Settings」→「Model Settings」： Temperature：设为 0.1~0.3（越低越严谨，适合知识库问答；越高越有创造力）； Context Window：设为 4096~8192（匹配 Ollama 模型的上下文长度，qwen:7b-chat 默认支持 8192）； Top K：设为 40（控制召回的相关文档片段数量）。 alt

中文优化

嵌入模型必须选「BAAI/bge-large-zh-v1.5」（中文语义理解远超英文嵌入模型）； LLM 优先选国产模型：qwen:7b-chat（中文流畅）/glm4:7b（推理 / 编程强）。 alt

alt

文档预处理（提升解析效果）

PDF 若扫描件（图片版）：先转成可复制的文本版（用 OCR 工具），否则 Anything LLM 无法解析；长文档（500 页 +）：拆分后分批上传，避免解析超时。

alt