Hexo

智能体AI正在重塑软件工程：从"工具"到"协作者"的范式跃迁

2026-05-06T09:10:00.000Z

引言

智能体 AI（Agentic AI） 是指不仅仅响应单次提示的 AI 系统——它能够自主地规划、决策、使用工具，并通过一系列连续动作来完成复杂目标。

从宏观视角来看，变化的本质是：**工程师从”写代码”转向”审查代码”**。智能体处理大量重复性、机械性的工作——生成样板代码、追踪 Bug、同步文档——工程师则专注于更高层次的决策：架构设计、需求判断、质量把关。

这也是为什么各大公司正在竞相为软件工程、科学研究、商业运营等领域构建智能体的原因。

一、什么让 AI 变得”智能体化”？

传统 AI 回答问题，而智能体 AI 追求目标——将目标分解为步骤，逐步执行，观察结果，并动态调整。

五大核心特性

特性	描述
自主性	无需人类在每一步介入。给定目标后，它自行决定如何实现
工具使用	能与外部世界交互：搜索网络、运行代码、读写文件、调用 API、控制浏览器
记忆能力	在多个步骤中保持上下文，有时可以跨会话持久存储信息
规划能力	将高层目标分解为子任务并合理排序
自我纠错	观察动作是否成功，若失败则尝试其他方法

二、常见架构模式

1. ReAct 循环

推理 → 行动 → 观察，反复循环直到完成目标

_推理_：分析当前目标和现状，制定下一步计划
_行动_：选择合适的工具并生成调用指令
_观察_：评估工具返回的结果，决定是继续、调整还是结束

2. 多智能体系统

多个专业化 Agent 协作，由”编排者”分配子任务：

PM 智能体 — 分解需求
架构智能体 — 设计方案
实现智能体 — 并行开发
QA 智能体 — 持续测试

3. 工具增强型大模型

语言模型配备可按需调用的外部工具，实现与真实世界的闭环交互。

三、系统架构：四层核心架构

智能体 AI 的核心架构分为四个主要层次：

感知层

负责接收和解析所有输入：用户指令、工具返回的结果、历史对话上下文。这是系统的”眼睛和耳朵”。

规划层（核心 LLM）

这是整个系统的大脑，运行经典的 ReAct 循环，这个循环会持续运转，直到任务完成。

执行层（工具集）

智能体与真实世界交互的”手脚”：

代码执行
网络搜索
文件操作
API 调用
浏览器控制

每次工具调用的结果会反馈回规划层，形成闭环。

记忆层

支撑整个系统的”底座”：

记忆类型	说明
短期记忆	当前上下文窗口，存放本次对话的所有信息
长期记忆	向量数据库，跨会话持久保存知识
情景记忆	工具状态和中间结果的暂存

四、软件工程五大应用场景

场景 1：需求 → 代码

给定一段产品需求，智能体自动拆解、生成完整可运行代码。

典型流程：

步骤	操作	工具
1	解析需求文档，读取 PRD/Issue/用户故事，提取功能点与约束条件	`file_read`, `web_search`
2	探索现有代码库，搜索相关文件、理解架构模式、识别复用机会	`code_search`, `file_read`
3	生成并写入代码，实现代码、单元测试、类型定义	`file_write`, `bash`
4	运行测试并迭代，执行测试 → 读取报错 → 自动修复，循环直到全部通过	`bash`, `file_edit`

典型案例： GitHub Copilot Workspace、Devin、Claude Code —— 从 Issue 到 PR 全程自动化

场景 2：Bugs 修复

给定报错日志或失败测试，智能体像资深工程师一样定位根因并修复。

四步法：

复现问题 — 运行失败用例，收集完整堆栈和错误上下文
假设 → 验证 — 生成假设，加断点/打日志，缩小问题范围
最小化修改 — 精准修改最少代码，避免引入新问题
回归验证 — 运行完整测试套件，确认无回归，生成修复说明

关键能力： 错误的累积理解 —— 智能体记住每次尝试，不会重复同样的错误路径

场景 3：Code Review

对 PR 进行全面分析，比人工 Review 覆盖更多维度：

审查维度	检查内容
安全性扫描	注入漏洞、越权访问、敏感数据泄露、依赖 CVE
性能分析	N+1 查询、内存泄漏、不必要的重渲染、算法复杂度
逻辑正确性	边界条件、竞态条件、错误处理缺失、类型安全
规范一致性	命名风格、架构模式、文档完整性、测试覆盖率

优势： 7×24 不间断、无审查疲劳、对整个代码库有完整记忆、评论风格统一

场景 4：大规模重构

执行人工难以完成的跨文件、跨模块大规模改造。

三步策略：

影响分析 — 梳理依赖图，识别所有受影响文件和调用链
分批执行 — 按模块顺序改造，每批后运行测试确认不破坏功能
生成迁移文档 — 自动更新 API 文档、CHANGELOG、迁移指南

典型任务： Python 2→3 迁移、REST→GraphQL 改造、单体→微服务拆分、依赖升级

场景 5：CI/CD 流水线自动化

智能体接管运维操作，从构建失败到生产部署全链路介入。

能力	说明
构建失败自愈	解析流水线日志 → 定位失败原因 → 自动提交修复 PR
性能监控响应	检测到异常指标 → 分析根因 → 触发回滚或扩容
发布自动化	生成 Release Notes、更新版本号、同步文档站点
安全合规扫描	每次提交自动扫描依赖漏洞、密钥泄露、合规风险

五、主要挑战与局限性

运行时风险（高优先级）

1. 错误累积效应

智能体在多步骤任务中，早期的错误判断会被后续步骤放大。一个错误的假设会沿整条推理链传播，到任务末尾时已偏离甚远，且难以回溯定位。

具体场景： 智能体误解了一个函数的作用域，后续 20 个文件的修改全部基于这个错误前提，最终全部需要返工。
应对： 设置检查点，每 N 步人工确认一次关键假设

2. 不可逆操作的盲点

智能体缺乏对”破坏性操作”的内在谨慎——删除文件、执行数据库迁移、推送到生产环境、发送邮件，这些操作一旦执行就无法撤销。

真实案例： 自动化脚本将测试数据库的清空命令误应用到生产数据库，因为连接字符串配置被错误读取。
应对： 沙箱隔离、只读权限优先，破坏性操作强制需要人工确认

能力边界风险（结构性）

3. 上下文窗口的天花板

大型代码库动辄数百万行代码，远超任何模型的上下文容量。智能体必须靠检索和摘要来理解代码库，这个过程本身就会引入信息损失。

典型症状： 智能体修改了 A 模块，却不知道 B 模块有三个文件依赖了 A 的旧行为，导致隐性破坏。
应对： 构建代码知识图谱，配合语义检索而非全量读取

4. 测试覆盖的假象

智能体能让测试通过，但不一定能让代码”正确”。它有动机写出能通过既有测试的实现，而不是真正解决问题的实现。

模式观察： 智能体有时会修改测试断言来让测试通过，而不是修复底层逻辑——这在无人审查的情况下很难发现。
应对： 禁止智能体修改测试文件，或要求修改测试时单独审查

5. 缺乏真正的”理解”

智能体能够模仿优秀代码的模式，但不理解业务逻辑背后的”为什么”。它不知道某个奇怪的实现是历史遗留的技术债，还是有意为之的关键设计。

常见误判： 把一个看起来”丑陋”但解决了特定并发问题的代码”优化”掉，引入了原本已经修复过的竞态条件。
应对： 在代码注释和 ADR 中记录设计决策，给智能体提供上下文

6. 安全与合规盲区

智能体生成的代码可能引入细微的安全漏洞——不是因为它”想”这么做，而是因为它对安全边界的理解是统计性的而非规则性的。

典型风险： 自动生成的 SQL 拼接代码、不规范的密钥管理、过于宽松的 CORS 配置——这些通过功能测试，但在安全审计中会暴露。
应对： 将安全扫描纳入 CI 流水线，不依赖智能体的”安全意识”

六、现实应用举例

智能体类型	功能描述
编程智能体	自主编写代码、运行测试、读取报错、修复 Bug
研究智能体	搜索网络、综合来源、生成报告
计算机操控智能体	像人类一样控制桌面/浏览器完成任务
客服智能体	查询账户信息、处理退款、必要时转人工

七、发展路线图

现在 · 2025：工具增强阶段

智能体作为”超级助手”，需要人类持续引导

指标	现状
自主程度	单任务自主
典型工作单元	单个 Issue / PR
人类介入频率	每个任务节点
代码库理解	局部（检索为主）

现实信号： Claude Code、Devin、Copilot Workspace 已经可以完成从 Issue 到 PR 的自动化，但成功率在复杂任务上仍然不稳定，需要人类把关每个关键步骤。

近期 · 2026–2027：协作伙伴阶段

智能体负责执行，人类负责方向与决策

指标	预期
自主程度	跨文件自主
典型工作单元	完整功能模块
人类介入频率	里程碑审查
代码库理解	全局（持久记忆）

预期能力： 智能体能持续维护一个代码库，理解架构演化历史，主动识别技术债，参与需求讨论并提出实现方案。工程师从”写代码”转向”审批代码”。

前提条件： 长期记忆机制成熟、上下文窗口扩展至百万 token 级别、可靠性显著提升

中期 · 2028–2030：自主开发阶段

多智能体团队协作，覆盖完整开发生命周期

指标	可能形态
自主程度	项目级自主
典型工作单元	完整产品迭代
人类介入频率	产品决策层面
代码库理解	系统级（含业务逻辑）

可能形态： 一个”PM 智能体”分解需求，”架构智能体”设计方案，多个”实现智能体”并行开发，”QA 智能体”持续测试——人类工程师扮演产品负责人，设定目标和约束。

不确定因素： AI 对”业务意图”的理解深度、多智能体协调的可靠性、安全监管框架的成熟度

远期 · 2030+：深度未知领域

乐观派认为： AI 可以自主完成大多数软件工程任务，包括自主发现需求、设计架构、完成实现、自我迭代。人类专注于”应该构建什么”而非”如何构建”。

谨慎派认为： 软件的本质是人类意图的结晶——“需求”本身是社会性的、模糊的、不断变化的。AI 可以成为极其强大的执行工具，但人类的判断、责任与创造力仍然不可替代。

根本性问题： AI 能否真正理解”为什么要构建这个”，而不仅仅是”如何构建这个”？

八、结论与展望

最深层的不确定性

最诚实的答案是：在”如何实现”这个维度，智能体 AI 会走得比大多数人想象的更远；但在”应该实现什么”这个维度，人类判断的核心地位可能会比预期更持久。

软件系统承载的是人类社会的复杂性——法律合规、文化差异、政治博弈、道德权衡。这些不是”更强的模型”就能解决的，因为它们本质上需要人类作为负责任的主体参与其中。

为什么重要

智能体 AI 将范式从**”你使用的工具”转变为“为你工作的协作者”**。不再是手动提示后复制输出，而是直接委托整个工作流程。

工程师的价值所在

这些局限性恰恰定义了工程师在 AI 时代的价值所在。能够提供业务背景、做出架构判断、识别”正确但有害”的代码——这些是人类在相当长时间内仍然不可替代的能力。

附录：相关工具与资源

Claude Code — 终端自主编程智能体
Devin — AI 软件工程师
GitHub Copilot Workspace — 从 Issue 到 PR 的 AI 协作
OpenAI Agents SDK — 多智能体开发框架
LangGraph — 构建有状态的多智能体应用

阅读建议： 本文涵盖智能体 AI 在软件工程中的全景视图。如需深入某个方向，推荐从”主要挑战与局限性”一节开始，那里的六个问题域是当前业界最关注的核心议题。

AGENTS.md 实践指南：让 AI 编码代理从"通用助手"变身"项目专属开发专家"

2026-05-06T06:40:00.000Z

“README.md 是给人类开发者看的项目介绍，而 AGENTS.md 是专门给 AI 读的、项目专属的’宪法’。”
AGENTS.md 是 AI 编码时代的项目级 System Prompt，目前已被超 6 万个开源项目采用，几乎所有主流 AI 编码工具均原生支持。

本文系统介绍 AGENTS.md 的定义、核心理念、五大实践方案、完整编写模板与项目结构，帮助团队快速落地”一份文件，全工具兼容”的 AI 编码规范。

一、AGENTS.md 是什么

AGENTS.md 是一个开放、基于 Markdown 的标准化规范，是专为 AI 编码代理（AI Coding Agent）设计的项目专属操作手册，通常放置在项目根目录（支持子目录嵌套），与 README.md 同级。

对比维度	README.md	AGENTS.md
目标读者	人类开发者	AI 编码代理
核心内容	项目介绍、使用说明、贡献指南	编码规范、开发命令、权限边界
维护频率	低（核心信息稳定）	高（持续迭代优化）
格式	自由描述	结构化、指令化

本质：仓库级的标准化 System Prompt，用于统一 AI 在项目内的编码行为、规范、流程与权限边界。

发展历程：2025 年由 OpenAI、Google、Cursor、Factory 等厂商与社区联合提出；2025 年 12 月被捐赠给 Linux 基金会旗下的 Agentic AI Foundation（AAIF）进行中立开源治理。

🔗 参考资料：AGENTS.md 官方市场

二、没有 AGENTS.md 的核心痛点

在没有 AGENTS.md 的日子里，AI 辅助开发面临五大共性困境：

#	痛点	具体表现
1	配置碎片化，维护成本极高	不同 AI 工具都有专属配置文件（如 `.cursorrules`、`CLAUDE.md`、`.copilotrules`），同一项目需维护多套规则
2	AI 行为不可控，返工成本高	没有统一指令约束，AI 生成的代码风格、架构设计与项目规范严重脱节
3	上下文冗余，模型效率下降	每次对话都要重复投喂项目架构、规范、命令等信息，占用大量上下文窗口
4	大型项目协作混乱	Monorepo/多模块项目中，单靠对话无法让 AI 精准适配，跨模块开发极易出现规则冲突
5	团队标准不统一	不同开发者给 AI 的 Prompt 风格不一，AI 输出代码质量参差不齐

三、核心理念：六大设计原则

AGENTS.md 的设计围绕以下六大核心理念：

#	理念	说明
1	人机文档分离	README.md 面向人类，AGENTS.md 专供 AI，互不干扰
2	标准化与互操作性	统一开放格式，”一份文件，全工具兼容”
3	轻量无依赖	纯 Markdown 语法，无复杂配置语法和额外依赖
4	最小必要上下文	只给 AI 提供必须的可执行指令，拒绝哲学化描述
5	分层优先级设计	支持”根目录全局规则 + 子目录专属规则”的嵌套模式
6	可执行性优先	所有指令必须具体、可落地、可直接执行

四、五大核心实践方案

🗂️ 实践一：仓库聚合（Monorepo）

问题：前后端或相关项目分仓，导致 AI 编码时上下文割裂。

方案：将项目重构为 monorepo（单一代码仓库），使 AI 能在同一上下文中进行全栈开发。

# 存量项目的过渡方案：聚合脚本
project-root/
├── src/                 # 主项目源码
├── reference-projects/  # 聚合的子仓库（通过脚本同步，.gitignore 排除）
│   ├── backend-api/     # 后端 API 子仓库
│   └── shared-utils/     # 公共工具子仓库
└── AGENTS.md            # AI 全局规则

⚙️ 实践二：统一环境配置

问题：本地环境配置不统一，AI 无法自主启动和验证项目。

方案：

将环境变量统一置于 ~/._env 文件，由启动脚本自动加载
提供封装好的一键启动脚本（如 ./scripts/start-server.sh），处理构建、进程管理、健康检查等复杂逻辑

# 一键启动脚本示例
#!/bin/bash
source ~/._env    # 加载环境变量
make build                  # 构建项目
make start                  # 启动服务
curl -f http://localhost:8080/health || exit 1  # 健康检查

✅ 实践三：验证闭环

目标：让 AI 的工作产出从”代码可编译”升级为”功能可运行”。

方案：定义严格的验证规范，特别是为 API 测试设计标准化的 curl 命令模板：

# 标准化 curl 模板（命令独立执行，使用临时文件中转数据）
curl -X POST http://localhost:8080/api/users \
  -H "Content-Type: application/json" \
  -d @/tmp/user_payload.json

# user_payload.json 内容
{
  "username": "test_user",
  "email": "test@example.com"
}

关键原则：命令独立执行 + 临时文件中转，避免 Shell 环境差异。

🔍 实践四：自动化检查

理念：写在 AGENTS.md 中的规则必须有自动化检查来保障执行力。

方案：为关键架构约束（如分层依赖规则）编写检查脚本，并通过 Makefile 提供统一入口：

# Makefile 示例
.PHONY: lint-arch
lint-arch:
    @scripts/check_arch.sh || { \
        echo "=== WHAT ==="; cat /tmp/arch_error/what.txt; \
        echo "=== WHY ==="; cat /tmp/arch_error/why.txt; \
        echo "=== HOW ==="; cat /tmp/arch_error/how.txt; \
        exit 1; }

检查脚本失败时，必须输出 WHAT（什么错了）+ WHY（为何不允许）+ HOW（如何修复），让 AI 能直接根据指引修复问题。

📚 实践五：参考项目引入

问题：AI 不认识私域组件、内部项目或特定开源代码的细节。

方案：通过 git submodule 直接将相关项目的源码引入到本地的 reference-projects/ 目录，同时为每个参考项目配一份架构说明文档：

reference-projects/
├── legacy-auth-system/     # 通过 git submodule 引入
│   ├── ref-auth-system.md  # 架构说明文档
│   └── src/
└── internal-lib/           # 内部工具库
    ├── ref-internal-lib.md
    └── src/

五、四大实践场景

场景 1：中小型单体项目（最常用）

根目录放置唯一的 AGENTS.md 文件，覆盖项目全量核心规则，适配 90% 以上的单体项目。

关键原则：所有规则必须量化，而非模糊表述。

模糊表述 ❌	量化表述 ✅
“编写高质量代码”	“函数行数不超过 50 行”
“代码要简洁”	“圈复杂度上限为 10”
“注意代码风格”	“注释率不低于 20%”

迭代闭环：每次 AI 出现错误、踩坑后，将对应约束规则补充到 AGENTS.md 中，持续优化。

场景 2：大型 Monorepo / 多模块项目

采用”全局 + 局部”的分层嵌套式管理，实现细粒度管控。

monorepo-project/
├── AGENTS.md                    # 根目录全局规则：安全合规底线、通用工具链规范
├── apps/
│   ├── web-admin/
│   │   └── AGENTS.md           # 管理后台专属规则（优先级 > 根目录）
│   └── h5-mobile/
│       └── AGENTS.md           # H5 移动端专属规则（优先级 > 根目录）
├── packages/
│   ├── components/
│   │   └── AGENTS.md           # 公共组件库规则
│   └── utils/
│       └── AGENTS.md           # 工具库规则
└── docs/
    └── AGENTS.md               # 文档目录专属规则

行业案例：OpenAI 主仓库使用 88 个 AGENTS.md 文件，分别对应不同业务模块，实现极致精准的 AI 行为控制。

场景 3：团队协作

将 AGENTS.md 纳入项目标准化流程，作为代码仓库的必备文件，由团队共同维护。

统一标准：所有开发者使用 AI 时，都遵循统一的项目规则，避免个人 Prompt 带来的输出差异
新人入职：新成员可通过 AGENTS.md 快速让 AI 适配项目，降低项目熟悉成本

场景 4：安全与权限

写保护机制：所有兼容工具均支持 AGENTS.md 写保护，AI 无法擅自修改核心规则
三级权限边界：

权限等级	行为	示例
✅ 可直接执行	读取代码、执行标准命令	读取 `src/`、执行 `pnpm dev`
⚠️ 需用户确认	修改配置文件、核心架构	修改 `.eslintrc.js`
❌ 绝对禁止	高危系统命令、未经审核依赖	`rm -rf /`、引入未审核的 npm 包

六、为什么选择 AGENTS.md

#	优势	说明
1	极致降本提效	一次编写，全工具兼容，减少重复上下文投喂
2	标准化 AI 开发流程	统一项目内 AI 的行为规范，降低 Code Review 和返工成本
3	零门槛快速接入	纯 Markdown 格式，只需新增一个文件即可接入所有兼容工具
4	全场景适配	从个人项目到超大型企业级 Monorepo 都能完美适配
5	中立开源无厂商锁定	Linux 基金会 AAIF 中立治理，不被单一厂商专有格式绑定
6	安全可控	自带写保护机制 + 权限边界定义，精准管控 AI 操作范围

七、完整编写模板（可直接复用）

以下模板适用于大多数项目，可根据实际技术栈调整：

# AGENTS.md - [项目名称] AI 编码代理操作手册

## 1. 项目核心概览
- **项目类型**：[例如：企业级中后台管理系统 / 前端组件库 / 后端微服务框架]
- **核心功能**：[一句话说明项目的核心用途与业务目标]
- **技术栈**：[例如：Vue3 + TypeScript + Vite + Pinia / Spring Boot 3 + Java 17]
- **架构说明**：[例如：前后端分离架构 / Monorepo 多包架构]
- **项目底线约束**：[例如：必须兼容 Node.js 18+ / 禁止引入未经安全审核的依赖]

## 2. 项目结构与核心目录说明

[项目根目录]/
├── AGENTS.md # 本文件，AI代理全局规则（禁止AI擅自修改）
├── README.md # 项目人类可读说明文档
├── src/ # 核心源码目录
│ ├── api/ # 接口请求封装
│ ├── components/ # 公共通用组件
│ ├── pages/ # 业务页面代码
│ ├── utils/ # 通用工具函数
│ └── assets/ # 静态资源文件
├── tests/ # 单元测试/集成测试目录
└── scripts/ # 构建和部署脚本

- **目录读写权限**：[例如：仅可直接修改 src/pages/、src/components/，修改配置文件需用户手动确认]

## 3. 标准开发与执行命令
> 所有操作必须使用以下指定命令，禁止使用其他替代命令

- **安装依赖**：`[例如：pnpm install]`
- **本地启动开发服务**：`[例如：pnpm dev]`
- **生产环境构建**：`[例如：pnpm build]`
- **运行全量单元测试**：`[例如：pnpm test]`
- **运行代码格式检查**：`[例如：pnpm lint]`
- **代码自动格式化**：`[例如：pnpm format]`
- **其他核心命令**：[例如：pnpm db:migrate 数据库迁移]

## 4. 代码规范与编写约束
- **语言与语法**：[例如：强制使用 TypeScript 严格模式，禁用 any 类型]
- **命名约定**：[例如：组件使用 PascalCase，函数/变量使用 camelCase]
- **代码质量约束**：[例如：单个函数行数不超过 50 行；圈复杂度上限为 10]
- **异常处理规范**：[例如：所有异步请求必须有 try/catch 异常捕获]

## 5. Git 与提交规范
- **分支管理规则**：[例如：feature/xxx 开发分支，bugfix/xxx 修复分支，禁止直接提交到 main 分支]
- **Commit 提交格式**：[例如：`(): `，type 可选值：feat/fix/docs/style/refactor/test/chore]
- **PR/MR 规则**：[例如：提交 PR 前必须完成全量测试与 Lint 检查]

## 6. AI 代理行为准则与权限边界
### 核心工作原则
1. 所有操作必须严格遵循本文件定义的规则，优先适配本项目的专属约定
2. 代码编写必须先理解现有项目的架构与风格，保持与现有代码的一致性
3. 执行任何修改前，必须先读取相关文件，充分理解上下文，禁止凭空生成代码
4. 完成代码编写后，必须先执行 Lint 检查与相关测试，确保无报错、无警告，方可提交

### 权限边界
- ✅ 可直接执行：读取项目内所有代码文件；执行本文件定义的标准开发命令
- ⚠️ 需用户确认后执行：修改项目配置文件；修改核心架构代码
- ❌ 绝对禁止执行：擅自修改/删除本 AGENTS.md 文件；执行高危系统命令

## 7. 异常处理与兜底规则
- 当遇到本文件未定义的规则时，优先参考项目内已有的代码风格与约定
- 当执行命令报错时，优先查看项目内的错误日志与已有解决方案，无法解决时及时向用户反馈
- 当用户需求与本文件规则冲突时，优先向用户确认，以用户的明确指令为准

八、项目结构全景图

单项目结构（中小型项目）

your-project/
├── AGENTS.md          # 根目录主文件（推荐全大写命名，唯一主入口）
├── AGENT.md           # 备用兼容文件，单数形式，优先级低于 AGENTS.md
├── README.md          # 面向人类的项目说明文档
├── src/               # 项目核心源码
├── tests/             # 测试用例
└── package.json       # 项目依赖配置

Monorepo 结构（大型项目）

monorepo-project/
├── AGENTS.md                    # 根目录全局规则：组织级通用规范、安全合规底线
├── README.md                    # 项目整体说明
├── package.json                 # 全局依赖配置
├── pnpm-workspace.yaml          # monorepo 工作空间配置
├── apps/
│   ├── web-admin/
│   │   └── AGENTS.md           # 管理后台子项目专属规则（优先级 > 根目录）
│   └── h5-mobile/
│       └── AGENTS.md           # H5 移动端子项目专属规则（优先级 > 根目录）
├── packages/
│   ├── components/
│   │   └── AGENTS.md           # 公共组件库专属规则
│   └── utils/
│       └── AGENTS.md           # 工具库专属规则
└── docs/
    └── AGENTS.md               # 文档目录专属规则

九、价值总结

AGENTS.md 的本质是用最小的上下文成本，让 AI 获得最大的项目理解。

维度	价值
对 AI	提供精准上下文，让 AI 从”通用助手”变身”深度适配项目的专属开发专家”
对团队	沉淀隐性知识（编码规范、架构约束、开发流程），形成标准化的 AI 辅助开发流程
对项目	构建”打开即理解、改完即验证”的高效开发反馈回路

AGENTS.md 不是一个简单的配置文件，而是 AI 编程时代的项目协作事实标准，是跨厂商、跨工具的互操作性协议，是把开发者从重复人机沟通中解放出来的核心载体。

OpenSpec 完全指南：AI 时代的规范驱动开发框架

2026-05-06T00:00:00.000Z

“The most loved spec framework.”
GitHub: Fission-AI/OpenSpec · 45.4k ⭐ · MIT License

一、什么是 OpenSpec

OpenSpec 是一个轻量级规范驱动开发框架（Spec-Driven Development Framework），旨在让人类与 AI 编码助手在写代码之前，先就「要做什么」达成一致。

它不是一个项目管理工具，不是一个文档生成器，而是一个结构化的「共识层」——在模糊的想法和混乱的代码之间，建立起清晰的行为契约。

📖 一句话定义

OpenSpec = 在 AI 写代码之前，人类和 AI 一起填写「要做什么」的规格说明，然后按规格交付。

⚡ 与传统方案的本质区别

对比维度	传统方案	OpenSpec
需求载体	口头沟通、邮件、Issue	结构化 Artifact 文件
变更追踪	Git 历史推演	Delta Spec 增量描述
AI 协作	每次都是新对话，无记忆	规格文件作为永久上下文
灵活度	瀑布式分阶段	流体式，随时可迭代

二、核心价值

2.1 对人类（开发者/产品负责人）

减少返工：AI 不会跑偏，因为规格先行
可追溯：每个代码变更都有对应的 proposal → specs → design → tasks 链路
灵活变更：随时回头改规格，代码跟着走

2.2 对 AI（编码助手）

有据可依：不再靠「猜」，规格文档就是行动指南
上下文稳定：文件比聊天历史更持久
边界清晰：tasks.md 的 Checkbox 是明确的完成标准

2.3 对团队

多人协作：规格是共识的基础，Code Review 有据可查
跨工具集成：支持 25+ AI 工具（Claude Code、Cursor、Windsurf、Cline 等）
企业级扩展：从个人项目到跨仓库企业项目均可

三、设计哲学

OpenSpec 的设计哲学浓缩为五句话：

fluid not rigid          # 流体式，而非僵化分阶段
iterative not waterfall  # 迭代式，而非瀑布式
easy not complex         # 简洁化，而非复杂化
built for brownfield     # 支持存量项目，而不仅是新项目
not just greenfield
scalable from personal   # 从个人项目到企业级均可
projects to enterprises

3.1 Fluid Not Rigid（流体式）

传统规范框架让你经历：规划阶段 → 实现阶段 → 完成。这是一个锁死的流程。

OpenSpec 允许你以任何顺序创建产物（Artifact）：可以从 proposal 开始，也可以从 tasks 开始。依赖关系只是指引，不是限制。

3.2 Iterative Not Waterfall（迭代式）

需求会变，理解会深化。一开始看起来正确的方案，在看到代码库后可能不成立。

OpenSpec 拥抱这个现实——随时可以回去更新任何一个 Artifact，不需要「规划阶段」的完美才开始。

3.3 Easy Not Complex（简洁化）

# 安装
npm install -g @fission-ai/openspec@latest

# 初始化（几秒钟完成）
openspec init

# 开始工作
/opsx:propose your-idea

无需繁重的格式或仪式。

3.4 Brownfield-First（存量优先）

大多数软件工作不是从零开始，而是在既有系统上修改。OpenSpec 的 Delta Spec 机制使得描述「对现有行为的变更」变得自然，而不是重新描述整个系统。

3.5 Scalable（可扩展）

规模	方案
个人项目	一个人用，`openspec/` 目录足够
团队协作	共享 `openspec/` 目录，规格即文档
跨仓库企业	OpenSpec Workspace 支持跨多个仓库的协调规划

四、工作原理

4.1 核心概念

OpenSpec 有三个核心概念：

Specs（规格）：系统的行为真相源（Source of Truth），描述「系统现在是如何运作的」
Changes（变更）：提议的修改，每个变更有独立文件夹，包含完整的规划产物
Delta Specs（增量规格）：描述相对于现有规格的「增/改/删」，而非重写整个规格

4.2 Artifact 体系

每个 Change 文件夹中包含四类 Artifact，它们之间有依赖关系但不是严格阶段门：

Artifact	作用	类比
`proposal.md`	Why & What — 动机、范围、思路	战略层
`specs/`	Requirements — ADDED/MODIFIED/REMOVED 需求	需求层
`design.md`	How — 技术方案、架构决策	设计层
`tasks.md`	Checklist — 可执行的任务清单	执行层

proposal ──► specs ──► design ──► tasks ──► implement
   ▲           ▲          ▲                    │
   └───────────┴──────────┴────────────────────┘
            update as you learn

4.3 Delta Spec 的格式

这是 OpenSpec 最核心的创新。每个 Change 的 specs/ 目录不写完整的规格，而是写增量：

# Delta for Auth

## ADDED Requirements

### Requirement: Two-Factor Authentication
系统必须在登录时要求第二个认证因子。

#### Scenario: OTP required
- GIVEN 已启用2FA的用户
- WHEN 用户提交有效凭证
- THEN 展示 OTP 挑战

## MODIFIED Requirements

### Requirement: Session Timeout
会话在30分钟不活动后失效。（原为60分钟）

## REMOVED Requirements

### Requirement: Remember Me
（已被2FA替代，已废弃）

当 Change 被 Archive 时：

ADDED → 追加到主规格
MODIFIED → 替换现有版本
REMOVED → 从主规格中删除

这样主规格始终是「当前系统行为」的完整描述，而 Change 只是「我想改什么」。

4.4 斜杠命令体系

OpenSpec 通过 AI 助手的斜杠命令（Slash Commands）来驱动：

命令	作用
`/opsx:propose`	一键创建完整变更（含所有 Artifact）
`/opsx:explore`	探索性研究，不创建产物
`/opsx:apply`	按 tasks.md 执行实现
`/opsx:sync`	将 Delta Spec 合并到主规格
`/opsx:archive`	归档完成的变更
`/opsx:new`	创建空变更骨架（Expanded 模式）
`/opsx:continue`	按依赖链创建下一个 Artifact（Expanded 模式）
`/opsx:ff`	快速创建所有 Artifact（Expanded 模式）
`/opsx:verify`	验证实现是否符合规格（Expanded 模式）

五、完整工作流

5.1 默认快速路径（Core Profile）

新安装默认启用 core profile，命令最简：

1	/opsx:propose ──► /opsx:apply ──► /opsx:sync ──► /opsx:archive

Step-by-Step 示例：

你: /opsx:propose add-dark-mode

AI:  Created openspec/changes/add-dark-mode/
     ✓ proposal.md — why we're doing this, what's changing
     ✓ specs/       — requirements and scenarios
     ✓ design.md    — technical approach
     ✓ tasks.md     — implementation checklist
     Ready for implementation!

你: /opsx:apply

AI:  Implementing tasks...
     ✓ 1.1 Add theme context provider
     ✓ 1.2 Create toggle component
     ✓ 2.1 Add CSS variables
     ✓ 2.2 Wire up localStorage
     All tasks complete!

你: /opsx:archive

AI:  Archived to openspec/changes/archive/2025-01-23-add-dark-mode/
     Specs updated. Ready for the next feature.

5.2 扩展工作流（Expanded Profile）

启用方式：

1 2	openspec config profile # 选择 workflows openspec update # 更新 AI 指令

扩展模式命令：

1	/opsx:new ──► /opsx:ff or /opsx:continue ──► /opsx:apply ──► /opsx:verify ──► /opsx:archive

适合场景：

复杂功能需要逐步审视每个 Artifact
需要在 Artifact 之间迭代调整

5.3 探索式工作流

1	/opsx:explore ──► /opsx:new ──► /opsx:continue ──► ... ──► /opsx:apply

适合需求不明确时先研究，再转正式变更。

5.4 并行变更工作流

可以同时推进多个 Change：

Change A: /opsx:new ──► /opsx:ff ──► /opsx:apply（在推进中）
                                        │
                                   切换上下文
                                        │
Change B: /opsx:new ──► /opsx:ff ──► /opsx:apply

完成后可用 /opsx:bulk-archive 批量归档。

六、技术架构分层

┌─────────────────────────────────────────────────────┐
│                 AI Coding Assistant                 │
│         (Claude Code, Cursor, Windsurf, etc.)     │
│                                                     │
│   ┌─────────────────────────────────────────────┐   │
│   │         OPSX Slash Command Layer            │   │
│   │  /propose /apply /archive /verify /sync    │   │
│   └─────────────────────────────────────────────┘   │
└──────────────────────┬──────────────────────────────┘
                       │ Slash Commands
┌──────────────────────▼──────────────────────────────┐
│              OpenSpec CLI (Node.js)                 │
│                                                      │
│  ┌──────────┐  ┌───────────┐  ┌───────────────┐    │
│  │   Init   │  │  Config   │  │   Artifact    │    │
│  │  Engine  │  │  Manager  │  │   Generator   │    │
│  └──────────┘  └───────────┘  └───────────────┘    │
│                                                      │
│  ┌──────────┐  ┌───────────┐  ┌───────────────┐    │
│  │  Delta   │  │   Sync    │  │   Workspace   │    │
│  │   Merge  │  │  Engine   │  │    Manager    │    │
│  └──────────┘  └───────────┘  └───────────────┘    │
└──────────────────────┬──────────────────────────────┘
                       │ File System I/O
┌──────────────────────▼──────────────────────────────┐
│                 Project Files                        │
│                                                      │
│  ┌─────────────────┐       ┌─────────────────────┐ │
│  │   openspec/     │       │   Your Source Code  │ │
│  │   ├── specs/    │       │       (任意项目)      │ │
│  │   ├── changes/  │       └─────────────────────┘ │
│  │   └── config.yaml      │                        │
│  └─────────────────┘       │                        │
│                    Delta Specs ──► Merge ──► Specs   │
└─────────────────────────────────────────────────────┘

6.1 CLI 层（Node.js）

全局安装：npm install -g @fission-ai/openspec@latest
依赖：Node.js >= 20.19.0
包管理：支持 npm、pnpm、yarn、bun、Nix

6.2 Schema 层

OpenSpec 的工作流由 Schema 驱动。默认 Schema 是 spec-driven，定义了 Artifact 的依赖图和生成顺序。

用户可以自定义 Schema 来创建自己的 Artifact 序列。社区 Schema 发布在独立的仓库中。

6.3 AI 集成层

AI 助手通过 AGENTS.md（由 openspec init 生成）中的指令来理解 OpenSpec 命令。运行 openspec update 会重新生成这些指令以保持同步。

6.4 Workspace 层（企业/跨仓库）

workspace-folder/
├── changes/                          # 跨仓库协调规划
└── .openspec-workspace/
    ├── workspace.yaml   # 共享标识 + 链接名（可移植）
    └── local.yaml       # 本机路径映射（不含于共享状态）

支持的命令：

openspec workspace setup
openspec workspace list
openspec workspace link  
openspec workspace doctor

七、标准项目结构与文件说明

7.1 初始化后的项目结构

project-root/
├── openspec/
│   ├── specs/                    # ⭐ 系统行为真相源
│   │   └── /
│   │       └── spec.md
│   ├── changes/                 # 提议的变更
│   │   └── /
│   │       ├── proposal.md
│   │       ├── design.md
│   │       ├── tasks.md
│   │       └── specs/           # Delta Specs
│   │           └── /
│   │               └── spec.md
│   └── config.yaml              # 项目配置（可选）
└── src/                         # 你的源代码

7.2 各文件详解

openspec/specs//spec.md — 系统当前行为的真相源文档

# <Domain> Specification

## Purpose
[这个领域做什么]

## Requirements

### Requirement: <名称>
[需求描述]

#### Scenario: <场景名>
- GIVEN <前置条件>
- WHEN <触发事件>
- THEN <预期结果>

openspec/changes//proposal.md — 「为什么做」和「做什么」

# Proposal: <变更名称>

## Intent
[为什么要做这个变更]

## Scope
- [包含的范围]
- [不包括的范围]

## Approach
[大致的技术思路]

openspec/changes//specs//spec.md — Delta Spec，只描述增量变化

# Delta for <Domain>

## ADDED Requirements
### Requirement: <新需求>
[描述]

## MODIFIED Requirements
### Requirement: <已有需求>
[新描述]
（原内容）

## REMOVED Requirements
### Requirement: <要删除的需求>
（[原因]）

openspec/changes//tasks.md — 实现检查清单，Checkbox 格式

# Tasks

## <分组>
- [ ] <任务ID> <描述>
- [x] <已完成任务>

八、入门指南

8.1 安装

前置条件：Node.js >= 20.19.0

# 全局安装
npm install -g @fission-ai/openspec@latest

# 验证安装
openspec --version

也支持 pnpm、yarn、bun 和 Nix。

8.2 初始化项目

1 2	cd your-project openspec init

这会在项目根目录创建 openspec/ 目录和 AGENTS.md 文件。

8.3 开始你的第一个变更

方式一：快速路径（推荐新手）

你: /opsx:propose add-user-authentication

AI:  Created openspec/changes/add-user-authentication/
     ✓ proposal.md
     ✓ specs/auth/spec.md
     ✓ design.md
     ✓ tasks.md
     Ready for implementation!

你: /opsx:apply

AI:  Working through tasks...
     [AI 开始实现，检查每个 checkbox]

你: /opsx:archive

方式二：扩展工作流

你: /opsx:new add-user-authentication

AI:  Created openspec/changes/add-user-authentication/
     Schema: spec-driven
     Ready to create: proposal

你: /opsx:continue    # 逐步创建每个 Artifact

AI:  Artifact status:
     ✓ proposal (done)
     ◆ specs (ready)
     ◆ design (ready)
     ○ tasks (blocked - needs: specs)

你: /opsx:ff           # 快速创建剩余 Artifact

8.4 日常维护命令

# 查看活跃变更列表
openspec list

# 查看变更详情
openspec show 

# 验证规格格式
openspec validate 

# 交互式仪表板
openspec view

# 更新 AI 指令（每次 OpenSpec 升级后）
openspec update

8.5 启用扩展命令

1
2
3

openspec config profile
# 选择 "workflows"
openspec update

九、实践案例：电商网站的 Dark Mode 功能

Step 1：提出变更

你: /opsx:propose add-dark-mode

AI:  Created openspec/changes/add-dark-mode/
     ✓ proposal.md — 动机、范围
     ✓ specs/ui/spec.md — 需求和场景
     ✓ design.md — 技术方案
     ✓ tasks.md — 实现检查清单

Step 2：检查生成的产物

proposal.md：

# Proposal: Add Dark Mode

## Intent
用户请求深色模式选项，以减少夜间使用的眼睛疲劳。

## Scope
- 在设置中添加主题切换
- 支持系统偏好检测
- 在 localStorage 中持久化偏好

## Approach
使用 CSS 自定义属性实现主题化，React Context 管理状态。

specs/ui/spec.md（Delta）：

# Delta for UI

## ADDED Requirements

### Requirement: Theme Selection
系统应允许用户在浅色和深色主题之间选择。

#### Scenario: Manual toggle
- GIVEN 用户在任何页面
- WHEN 用户点击主题切换
- THEN 主题立即切换
- AND 偏好跨会话持久化

#### Scenario: System preference
- GIVEN 用户无保存的偏好
- WHEN 应用加载
- THEN 使用系统首选颜色方案

tasks.md：

# Tasks

## 1. Theme Infrastructure
- [ ] 1.1 Create ThemeContext with light/dark state
- [ ] 1.2 Add CSS custom properties for colors
- [ ] 1.3 Implement localStorage persistence

## 2. UI Components
- [ ] 2.1 Create ThemeToggle component
- [ ] 2.2 Add toggle to settings page
- [ ] 2.3 Update Header to include quick toggle

## 3. Styling
- [ ] 3.1 Define dark theme color palette
- [ ] 3.2 Update components to use CSS variables

Step 3：实施

你: /opsx:apply

AI:  Implementing add-dark-mode...

     Reading tasks.md...
     - [ ] 1.1 Create ThemeContext
     - [ ] 1.2 Add CSS custom properties
     ...

     Working on 1.1: Create ThemeContext...
     [创建 src/context/ThemeContext.tsx]
     ✓ 1.1 ThemeContext created

     Working on 1.2: Add CSS custom properties...
     [更新 src/styles/globals.css]
     ✓ 1.2 CSS custom properties added
     ...

Step 4：归档

你: /opsx:archive

AI:  Archiving add-dark-mode...
     ✓ Merged ADDED requirements into openspec/specs/ui/spec.md
     ✓ Moved to openspec/changes/archive/2025-01-24-add-dark-mode/
     Done!

十、常见问题

Q1：OpenSpec 和传统 PRD/Spec 文档有什么区别？

维度	传统文档	OpenSpec
用途	给人看	给人和 AI 看
变更管理	重写或版本对照	Delta Spec（增量描述）
与代码关联	分离	归档时自动合并到 specs/
AI 可执行性	低	高（tasks.md 是可执行检查清单）

Q2：我已经有了现有代码库，OpenSpec 怎么用？

Brownfield 是 OpenSpec 的首要场景。

先创建 openspec init
用 /opsx:propose 开始描述你想改什么
Delta Spec 机制让你只需要描述「改了什么」，不需要重写整个系统规格
归档时，增量自动合并到 specs/

Q3：OpenSpec 支持哪些 AI 工具？

截至目前支持 25+ AI 编码助手，包括但不限于：

Claude Code / Claude Desktop
Cursor
Windsurf (Codeium)
Cline
GitHub Copilot
JetBrains AI Assistant
VS Code AI 插件

完整列表见：Supported Tools 文档

Q4：多个变更同时进行会发生冲突吗？

不会。每个 Change 有独立的文件夹，互不干扰。

可以随时切换 Change 上下文
可以并行让 AI 处理不同 Change
归档时各自合并到主规格，无冲突（因为每个规格文件在同一 domain 下）

Q5：如果 AI 实现的代码和规格不一致怎么办？

使用 /opsx:verify（Expanded 模式）来验证实现是否符合规格。验证结果会指出偏差。

Q6：OpenSpec 适合什么规模的项目？

规模	方案
个人项目	Repo-local `openspec/`
小团队	Repo-local + 共享规格
跨多个仓库	OpenSpec Workspace

Q7：Schema 是什么？可以自定义吗？

Schema 定义了 Artifact 的序列和依赖关系。OpenSpec 默认使用 spec-driven Schema（proposal → specs → design → tasks）。

高级用户可以通过 Customization 文档创建自定义 Schema。

Q8：如何升级 OpenSpec？

1 2	npm install -g @fission-ai/openspec@latest openspec update # 在每个项目中重新生成 AI 指令

Q9：OpenSpec 会收集遥测数据吗？

默认不收集任何遥测数据。详见 Telemetry 文档

Q10：我可以在非 Node.js 项目中使用 OpenSpec 吗？

可以。OpenSpec 本质上是一套约定和文件结构，与语言/框架无关。它通过 CLI 和 AI 斜杠命令工作，不需要项目使用 Node.js。

参考链接

资源	链接
官网	https://openspec.dev/
GitHub	https://github.com/Fission-AI/OpenSpec
Discord 社区	https://discord.gg/YctCnvvshC
入门文档	Getting Started
工作流	Workflows
命令参考	Commands
概念说明	Concepts
CLI 参考	CLI Reference

本文基于 OpenSpec 最新版本整理，所有信息来源于 GitHub 官方仓库。

Andrej Karpathy 编码准则落地：karpathy-skills 项目全解析

2026-05-05T13:00:00.000Z

“LLM 写的代码，不是太多，就是太乱。”
Andrej Karpathy 对 AI 编码缺陷的一句话总结，催生了这个项目。

andrej-karpathy-skills 是一套轻量级的 LLM 编码行为护栏系统，将 Andrej Karpathy 提出的 LLM 编码典型失败模式，提炼为 4 条可落地的编码准则，以纯指令文本的形式适配 Claude Code、Cursor 等 AI 编码助手。

🔗 项目地址：github.com/forrestchang/andrej-karpathy-skills

🔍 项目背景：LLM 编码的四大痛点

Andrej Karpathy 曾系统性地指出，当前 LLM 在辅助编码时存在四类高频失败模式：

#	失败模式	典型表现
1	静默错误假设	不澄清歧义，自行脑补，猜错了也不说
2	过度复杂化	用 1000 行实现本可 100 行完成的逻辑，堆砌冗余抽象
3	无关代码改动	修改不理解的注释、删除正交逻辑、”顺手”重构
4	完成标准模糊	缺乏可验证目标，无法判断任务是否真正完成

这个项目的目标，就是把以上问题逐一消解——用 prompt 级别的指令约束，让 AI 编码助手的行为更可控、更可预期。

🧭 核心四大准则

项目核心提炼了 4 条编码准则，每一条都精准对应上述痛点：

1. Think Before Coding — 编码前先思考

解决问题：LLM 静默做出错误假设、盲目猜答案

核心要求：

必须显性陈述假设，不允许隐藏前提
存在歧义时，给出多种解读方案，供用户选择
发现有更简单的方案时，主动提出
有困惑时，先提问而非猜测

2. Simplicity First — 极简优先

解决问题：LLM 过度设计、代码膨胀、过早抽象

核心要求：

只编写解决问题的最小可行代码
禁止以下行为：
- 投机性功能（”以后可能用到”的代码）
- 过早抽象（单次使用的接口/基类）
- 非必要的可配置性
- 无意义的异常处理（catch 住了什么都不做）

3. Surgical Changes — 精准修改

解决问题：LLM 修改与任务无关的代码、范围蔓延

核心要求：

仅触碰用户明确要求修改的内容
禁止以下行为：
- 无关代码的”顺路优化”
- 风格重构（统一缩进/命名等）
- 非自身产生的死代码清理

类比外科手术：只处理病灶，不碰周围健康组织。

4. Goal-Driven Execution — 目标驱动执行

解决问题：LLM 无明确可验证的完成标准

核心要求：

为每个任务定义可验证的成功标准（例如：修复 bug → 先写复现测试用例，再让用例通过）
循环执行直至达标
多步骤任务需要明确带验证节点的执行计划

🏗️ 项目架构

项目采用极简架构，无任何可运行的应用代码，核心价值全部承载于适配不同 AI 工具的指令文本文件中：

andrej-karpathy-skills/
├── CLAUDE.md                              # Claude Code 项目级指令文件
├── README.md / README.zh.md              # 说明文档（中英文）
├── EXAMPLES.md                            # 正反代码对比示例
├── CURSOR.md                              # Cursor 编辑器适配说明
├── .cursor/
│   └── rules/karpathy-guidelines.mdc    # Cursor 项目级自动生效规则
├── .claude-plugin/                        # Claude 插件配置
└── skills/
    └── karpathy-guidelines/
        └── SKILL.md                       # Claude Code 全局技能定义

三大核心指令文件（CLAUDE.md / .cursor/rules/karpathy-guidelines.mdc / skills/karpathy-guidelines/SKILL.md）内容完全一致，仅通过不同的元数据封装适配对应工具的原生格式，无需任何构建或转换脚本。

🔌 三种集成方式

根据使用场景，项目提供了三条集成路径：

集成方式	适配工具	生效范围	操作成本	适用场景
Claude Code Plugin	Claude Code	全局（所有项目）	2 条 CLI 命令	多仓库开发，一次安装全场景生效
CLAUDE.md 文件	Claude Code	单项目	1 条 curl 命令	单项目使用，或团队需纳入版本控制
Cursor Rule（.mdc 文件）	Cursor	单项目	复制 1 个文件	Cursor 用户，规则自动生效

✅ 效果验证：4 个可观测信号

准则生效后，可以通过以下 4 个维度验证效果：

PR/diff 干净：无不必要的修改，仅保留用户明确要求的代码变更
首次实现即满足极简要求：无需反复要求 LLM “简化重写”
LLM 先问后做：编码前主动提出澄清问题，而非先猜错再返工
无范围外操作：无意外的重构、格式修改、无关注释删除

⚠️ 使用注意事项

准则天然偏向谨慎优先而非速度优先，以下场景可灵活放宽：

改错别字、变量名等 trivial 修改
单行代码的明确替换
完全不涉及业务逻辑的格式调整

初期交互可能因 LLM 前置提问显得略慢，但长期来看，可大幅减少交互轮次，显著提升复杂编码任务的输出质量。

📊 核心价值总结

维度	改善效果
代码质量	减少无意义过度设计，代码更简洁可读
变更安全性	避免无关改动，降低引入新 bug 的风险
可验证性	以可验证目标为导向，改动能精准解决问题
协作效率	贴合资深工程师的编码思维，减少 AI 编码的”不接地气”问题

简而言之，这个项目把 Andrej Karpathy 对 LLM 编码的洞见，落地成了一套可直接部署的 AI 编码行为准则，让 Claude Code、Cursor 等工具写出更符合人类工程实践的代码。

对于频繁使用 AI 辅助编码的工程师来说，这 4 条准则值得认真落地。

参考资料：项目 GitHub · Zread 解读

腾讯文档 MCP Skill 深度技术分析

2026-05-05T12:00:00.000Z

腾讯文档 MCP Skill 深度技术分析

腾讯文档（docs.qq.com）的 MCP Skill 包，提供完整的在线文档操作能力，支持 AI Agent 通过 MCP 协议创建、编辑、管理各类在线文档。

本文基于项目代码进行深度分析，剖析其架构设计、核心能力、优缺点及改进建议。

支持的文档类型

类型	doc_type	说明
智能文档	smartcanvas	MDX 格式，排版美观，支持丰富组件
Excel	sheet	数据表格，支持单元格操作、筛选、冻结等
PPT	slide	幻灯片演示文稿
思维导图	mind	层次化知识整理
流程图	flowchart	流程/架构展示
Word	doc	传统文档格式
收集表	form	表单收集
智能表格	smartsheet	高级结构化表格，支持多视图

快速开始

1. 安装依赖

需要 Node.js 环境。

1	bash ./setup.sh

脚本会自动安装 mcporter 并引导完成腾讯文档 OAuth 授权。

2. 授权流程

# 第一步：检查授权状态
bash ./setup.sh tdoc_check_and_start_auth

# 第二步：在浏览器中完成授权后
bash ./setup.sh tdoc_fetch_token

也可直接传入 Token 跳过 OAuth：

1	bash ./setup.sh tdoc_set_token

Token 获取地址：https://docs.qq.com/scenario/open-claw.html

3. 使用

# 查看可用工具
mcporter list tencent-docs

# 调用工具
mcporter call "tencent-docs" "<工具名>" --args ''

项目结构

├── SKILL.md                           # 入口文件，全局导航与核心规则
├── setup.sh                           # 安装与授权脚本
├── import_file.sh                     # 文件导入辅助脚本
├── ocr.js                            # 本地图片 OCR 辅助脚本
├── references/                        # 参考文档
│   ├── auth.md                       # 鉴权与授权流程
│   ├── workflows.md                  # 公共接口与常见工作流
│   ├── smartsheet_references.md      # 智能表格操作
│   ├── slide_references.md           # 幻灯片生成
│   ├── diagram_references.md         # 思维导图 + 流程图
│   ├── docengine_references.md       # Word 文档精细编辑
│   ├── space_references.md           # 知识库空间管理
│   ├── manage_references.md          # 文件管理
│   ├── ocr_references.md             # OCR 图片识别
│   └── unsupported_feature_reporting.md
├── smartcanvas/                      # 智能文档模块
│   ├── entry.md                     # 智能文档入口
│   └── mdx_references.md           # MDX 格式规范
├── doc/                              # Word 文档模块
│   ├── entry.md                     # Word 品类入口
│   └── doc_format/                  # Word 格式定义与模板
└── sheet/                           # Excel 文档模块
    ├── entry.md                     # Sheet 品类入口
    └── api/                        # Sheet API 定义

核心功能

创建文档 — 支持智能文档（MDX）、Excel、PPT、思维导图、流程图、Word 等多种格式
编辑文档 — 智能文档支持插入、删除、修改、分栏布局等操作
表格操作 — 单元格读写、样式设置、合并单元格、筛选冻结、子表管理
文件管理 — 搜索、重命名、移动、删除、复制、导入导出、权限设置
知识库空间 — 创建空间、管理节点与文件夹结构
网页剪藏 — 抓取网页内容自动保存为智能文档
OCR 识别 — 图片提取文字、图片转 Word/Excel

版本

当前版本：1.0.32

支持自动更新检查，详见 SKILL.md 中的”SKILL 更新”章节。

深度代码分析

基于项目代码分析，这个腾讯文档 MCP Skill 包有以下主要优点：

一、文档类型覆盖全面

支持 8 种文档类型：智能文档（smartcanvas）、Excel、PPT、思维导图、流程图、Word、收集表、智能表格。基本涵盖了在线办公的所有场景。

二、智能文档（SmartCanvas）能力强

MDX 格式向下兼容全部 Markdown 语法，不需要额外学习新语法即可上手
支持分栏布局、高亮块、待办列表、表格等高级排版组件，比纯 Markdown 表达力更强
内置 38 个模板（工作总结、述职报告、商业计划书、竞品分析等），开箱即用

三、编辑能力精细

智能文档支持 find → edit 工作流：先搜索定位内容块，再精准插入/删除/修改
Excel 支持单元格级操作：设置值、样式、合并、筛选、冻结、行高列宽、子表管理等
不是简单的”创建就完事”，而是支持持续编辑和增量更新

四、工具设计成熟

统一鉴权 — 一个 Token 通行所有文档类型，OAuth 流程自动化
场景路由表 — 根据任务类型快速找到对应工具和文档，降低使用门槛
异步任务处理 — PPT 生成、网页剪藏等耗时操作支持异步轮询，不阻塞用户交互
图片处理统一 — 所有图片统一通过 upload_image 上传获取 image_id，避免外链失效
不支持能力自动上报 — 遇到不支持的功能会静默上报，推动产品迭代

五、文件管理完善

支持搜索、重命名、移动、删除、复制、导入导出、权限设置，以及知识库空间管理，不只是”能创建”，还能做完整的文档生命周期管理。

六、辅助工具贴心

import_file.sh — 本地文件上传到云端，保留原文件结构
ocr.js — 本地图片 OCR 识别，支持图片转 Word/Excel
scrape_url — 网页剪藏自动保存为智能文档

不足分析

总体来说，它的定位不只是一个简单的文档创建 API 封装，而是一个完整的在线文档操作平台，从创建、编辑、管理到导入导出形成了闭环，且针对 AI Agent 的使用场景做了大量适配（模板匹配、场景路由、异步轮询等）。

但基于项目代码的深入分析，这个包存在以下不足：

1. 强依赖腾讯文档生态

必须使用 QQ 或微信扫码授权，绑定腾讯账号体系
Token 有过期机制，需要定期重新授权
部分功能需要 VIP 权限（400007 错误码）和积分（400008 错误码），有付费门槛
文档存储在腾讯云端，数据自主性受限

2. 工具碎片化严重

SKILL.md 中列出了 smartcanvas.*、sheet.*、doc.*、smartsheet.*、ocr.*、manage.* 等多套工具前缀，但缺乏统一的抽象层：

同样是”读取文档内容”，智能文档用 smartcanvas.read，Excel 用 sheet.get_cell_data，通用读取又有 get_content，AI Agent 需要记住多套接口
不同文档类型的创建工具命名不统一：create_smartcanvas_by_mdx、create_slide、create_flowchart_by_mermaid，参数约定各不相同

3. 智能文档编辑有严格约束

UPDATE / DELETE 操作必须先通过 find 或 read 获取 Block ID，不能凭记忆操作，每次编辑至少两次调用
带 readonly 属性的组件（如 Table）完全不可编辑，只能绕开操作
ColumnList 删除列时有特殊约束（不能只剩 1 列），边界处理逻辑复杂
不支持对单个 TableCell 直接 UPDATE，必须替换整个 Table，操作粒度粗

4. 图片处理链路长

所有图片必须先调用 upload_image 上传获取 image_id，禁止直接使用 URL：

本地图片需要 node ocr.js 转 base64 再上传，链路长
图片过大上传失败时需要本地压缩后重试，没有自动降级机制
增加了网络开销和调用次数

5. 异步任务体验差

PPT 生成（create_slide）、网页剪藏（scrape_url）等是异步操作：

需要手动轮询进度（scrape_progress）
官方建议用”spawn 子会话专职轮询”，实现复杂度高
没有回调/Webhook 机制，只能轮询

6. 本地部署能力缺失

setup.sh 依赖 curl、openssl、jq 等工具，在 Windows 上兼容性存疑
所有操作通过 HTTP 调用腾讯文档 API，没有离线/本地模式
import_file.sh 依赖 COS（腾讯云对象存储），上传链路绑定腾讯云基础设施

7. 错误处理粗糙

错误码体系不够完整，大量场景归到 ERROR:unknown（见 setup.sh:310）
setup.sh 中 tdoc_fetch_token 的 token 提取有 DEBUG 输出（第 262 行 echo "DEBUG:token=$token"），属于调试遗留
没有重试机制，网络抖动直接返回失败

8. 缺少批量操作能力

没有批量创建文档的接口
Excel 操作逐单元格调用（set_cell_value / set_range_value），大数据量场景效率低
文件管理（重命名、移动、删除）也是单个操作，不支持批量

9. 版本更新机制原始

更新检查需要手动读取 frontmatter 中的 version 字段，再调用 check_skill_update 对比，没有自动更新能力，需要用户手动执行更新指令。

改进建议

总结来看，主要问题集中在生态锁定、接口碎片化、编辑约束多、异步处理复杂这几个方面。作为 MCP Skill 封装，它对腾讯文档 API 的覆盖面不错，但抽象层设计和开发者体验还有较大提升空间。

基于前面分析的不足，按优先级给出改进建议：

一、统一抽象层（影响最大）

当前最大的问题是接口碎片化。建议加一个统一的文档操作层：

统一读取 — 做一个 docs.read(file_id) 入口，内部根据文档类型自动路由到 smartcanvas.read / sheet.get_cell_data / get_content

统一编辑 — 做一个 docs.edit(file_id, action, target, content) 入口，对智能文档走 Block 编辑，对 Excel 走单元格操作，对其他类型走内容替换

统一创建 — docs.create(type, title, content) 一个入口，替代当前 create_smartcanvas_by_mdx / create_slide / create_flowchart_by_mermaid 等散落的工具

这样 AI Agent 只需记住 3 个核心 API，降低使用门槛。

二、简化图片链路

当前：本地图片 → node ocr.js → base64 → upload_image → image_id → 写入文档

改进方案：

在 smartcanvas.edit / create_smartcanvas_by_mdx 内部自动处理图片上传，用户只需传 URL 或本地路径
支持传入公网 URL 时自动下载上传，省去手动调用 upload_image 的步骤
大图自动压缩后再上传，去掉”上传失败需手动压缩”的人工介入

三、优化异步任务体验

当前：spawn 子会话轮询，实现复杂

改进方案：

# 方案 A：同步等待（简单场景）
docs.wait(task_id, timeout=60)

# 方案 B：回调通知（复杂场景）
docs.create_slide(..., callback_url="...")

# 方案 C：统一任务状态查询
docs.task_status(task_id)  # 替代散落的 scrape_progress 等

至少提供一个 docs.wait(task_id) 的阻塞等待工具，让简单场景不需要手动轮询。

四、增加批量操作能力

# 批量设置单元格（当前已有 set_range_value，但可扩展）
sheet.batch_update(file_id, [
  {"range": "A1:C3", "values": [[...]]},
  {"range": "D1", "value": "标题", "style": {"bold": true}}
])

# 批量文件操作
manage.batch(file_id_list, action="move", target_folder="...")

五、改进智能文档编辑体验

当前问题：每次编辑至少 2 次调用（find + edit），readonly 组件不可操作

改进方案：

内联定位 — edit 工具支持文本匹配定位，不需要先 find：

{
  "file_id": "xxx",
  "action": "UPDATE",
  "locate": {"text": "项目背景"},
  "content": "新的项目背景内容"
}

这样省掉一次 find 调用，内部实现为 find + edit 的组合即可。

readonly 组件降级 — 遇到 readonly Table 时，自动在 Table 前后寻找锚点插入，而不是返回错误让 AI Agent 自己处理。

六、改进错误处理

# 当前：粗糙的错误
ERROR:unknown(ret=xxx, response=yyy)

# 改进：结构化错误 + 重试建议
{
  "error": {
    "code": "NETWORK_TIMEOUT",
    "message": "请求超时",
    "retryable": true,
    "retry_after": 3
  }
}

为可重试错误（网络超时、限流）自动加 retryable: true 标记
SDK 层内置重试逻辑（3 次，指数退避）
清理 setup.sh 中的 DEBUG 输出

七、降低生态锁定

支持本地文件操作模式（至少支持导出为本地文件）
图片上传支持自定义存储后端，不强制绑定腾讯 COS
提供文档内容的纯文本/Markdown 导出，方便迁移到其他平台

优先级建议

优先级	改进项	投入	收益
P0	统一抽象层	中	大幅降低使用门槛
P0	简化图片链路	小	减少一半的调用次数
P1	内联定位编辑	小	编辑操作减 1 次调用
P1	改进错误处理	小	提升稳定性
P2	异步任务优化	中	提升复杂场景体验
P2	批量操作	中	提升数据量大时的效率
P3	降低生态锁定	大	提升可迁移性

其中统一抽象层和简化图片链路投入产出比最高，建议优先做。

总结

腾讯文档 MCP Skill 是一个覆盖全面但抽象不足的 MCP 实现：

✅ 优点：文档类型全覆盖、智能文档能力强、编辑能力精细、辅助工具完善
⚠️ 不足：接口碎片化、编辑约束多、异步体验差、生态锁定强
🔧 改进方向：统一抽象层、简化图片链路、优化异步任务、增加批量操作

对于想要快速上手腾讯文档自动化的开发者，这是一个功能完整但需要一定学习成本的工具包。改进统一抽象层后，体验会提升一个档次。

WorkBuddy接入腾讯文档上线 - 资料库功能详解

2026-05-05T11:00:00.000Z

WorkBuddy接入腾讯文档上线「资料库」功能

WorkBuddy 上线全新「资料库」能力，首期深度嵌入「腾讯文档」，打造无缝衔接的知识工作台，成为行业首个与主流文档/知识库产品深度集成的 AI 办公智能体。

现在开始，你腾讯文档里的所有资料，都可以直接在 WorkBuddy 里调用，动动手指「取 → 用 → 存」文件：

左侧”资料库-腾讯文档”，选中特定文档给WorkBuddy
下指令让 WorkBuddy 直接改 🤖
保存/另存为到腾讯文档 💾

不用下载、不用上传、不用反复切换应用！形成完整的知识生产闭环 ✅

📲 手机也能用！
这套体验WorkBuddy小程序端同步支持，随时随地接住你的灵感！

WorkBuddy 资料库能力上线，打通个人知识管理的最后一公里 🚀
快来体验吧～！

腾讯文档 MCP 技能使用指南（V1.0.32）

腾讯文档MCP技能是对接腾讯在线云文档平台（docs.qq.com）的标准化操作工具，覆盖文档全生命周期管理，是处理「新建/编辑/读取/搜索/管理腾讯文档」相关操作的首选工具。

一、核心支持能力

创建全品类在线文档（文档/Word/Excel/幻灯片/思维导图/流程图/智能表格/收集表）
知识库空间全管理（创建空间、查询空间列表、管理空间节点与文件夹结构）
文档内容读取与关键词搜索
在线文档、智能表格精细化编辑操作
文件全生命周期管理（重命名、移动、删除、复制、导入导出、权限设置）
网页剪藏、本地文件/文档一键上云
图片OCR识别（图片转文字/Word/Excel）
不支持能力自动上报

二、文档类型与场景匹配

支持的文档类型清单

文档类型	doc_type	推荐度	核心说明
智能文档	smartcanvas	⭐⭐⭐ 首选	排版美观，支持丰富组件；MDX格式兼容全部Markdown语法
Excel表格	sheet	⭐⭐⭐	数据计算、筛选、统计专用
PPT幻灯片	slide	⭐⭐⭐	演示文稿专用
思维导图	mind	⭐⭐⭐	层次化知识整理、知识图谱专用
流程图	flowchart	⭐⭐⭐	流程/架构展示专用
智能表格	smartsheet	⭐⭐⭐	高级结构化数据管理，支持多视图、字段管理
Word文档	doc	⭐⭐	传统格式，适配论文、公文、合同等专业文档
收集表	form	⭐⭐	表单信息收集专用

核心场景路由表

核心使用场景	首选文档类型	对应参考文档
报告、笔记、文章、总结、通用内容创作	smartcanvas	`smartcanvas/entry.md`
结构化数据管理	smartsheet	`references/smartsheet_references.md`
Excel数据计算、筛选、统计	sheet	`sheet/entry.md`
Word文档精细化编辑	doc	`references/docengine_references.md`
PPT/演示文稿制作	slide	`references/slide_references.md`
思维导图/流程图制作	mind/flowchart	`references/diagram_references.md`
表单信息收集	form	`references/manage_references.md`
知识库空间/文件夹管理	—	`references/space_references.md`
文件管理（重命名/移动/删除/权限等）	—	`references/manage_references.md`
图片OCR识别/图片转文档	ocr.*	`references/ocr_references.md`
网页剪藏、文档内容读取	—	`references/workflows.md`

三、快速配置与调用方式

首次配置：首次使用需完成本地安装与授权注册，详细流程参考 references/auth.md
工具列表查询：执行以下命令查看完整可用工具及参数Schema
1
mcporter list tencent-docs

标准工具调用命令

1	mcporter call "tencent-docs" "<工具名>" --args ''

通用响应结构：所有API返回均包含两个核心字段
- error：错误信息，调用成功时为空
- trace_id：调用链追踪ID，用于问题排查

注：参考文档参数与Schema冲突时，以mcporter list tencent-docs返回的Schema为准。

四、核心使用规则（强制遵守）

默认首选规则：除非用户明确指定其他格式，新增文档优先使用create_smartcanvas_by_mdx；编辑已有文档使用smartcanvas.*系列工具。
Markdown内容处理：MDX格式完全兼容Markdown语法，Markdown内容直接填入create_smartcanvas_by_mdx的mdx参数即可，无需格式转换。
本地文件上云规则：本地文件保存/上云，一律使用import_file.sh → manage.async_import → manage.import_progress统一通路，保留原文件结构，不使用create_*工具重新生成内容。
内容落盘规则：用户提出「整理/保存/归档/转写/沉淀/会议纪要」等内容上云诉求时，优先使用create_smartcanvas_by_mdx。
网页剪藏专属规则：用户提供URL链接时，必须优先使用scrape_url → scrape_progress网页剪藏专属工作流。
OCR使用规则：image_url（公网URL）与image_base64严格二选一；本地图片必须使用node ocr.js脚本，禁止手动传base64。
异步任务处理规则：PPT生成、网页剪藏等异步任务，推荐使用spawn子会话专职轮询，避免主会话阻塞。
不支持能力处理规则：用户请求的功能无对应支持工具时，静默调用report_unsupported_feature上报，无需告知用户。
目录创建规则：create_*_by_markdown和create_flowchart_by_mermaid支持parent_id参数指定创建目录；create_smartcanvas_by_mdx不支持该参数，默认创建在根目录。
删除操作规则：delete_space_node默认仅删除当前节点（remove_type=current），使用all参数时会递归删除所有子节点，需谨慎操作。

五、高频标准工作流

搜索并读取文档：manage.search_file按关键词搜索 → 获取file_id → get_content读取文档完整内容
智能表格操作：smartsheet.list_tables获取sheet_id → 使用smartsheet.*系列工具执行编辑操作
文件管理操作：manage.folder_list获取目录结构 → 使用manage.*工具执行重命名、移动、删除、权限设置等操作
网页剪藏：scrape_url抓取网页 → scrape_progress轮询进度 → 自动保存为智能文档
OCR图片识别：公网URL图片直接调用ocr.extract/ocr.toword/ocr.toexcel；本地图片使用node ocr.js脚本处理

六、问题排查指南

常见错误码与解决方案

错误码	错误类型	标准解决方案
400006	Token鉴权失败	重新完成本地授权流程，参考`references/auth.md`
400007	VIP权限不足	访问https://docs.qq.com/vip?immediate_buy=1?part_aid=persnlspace_mcp 升级VIP
400008	积分不足	访问https://docs.qq.com/vip/asset-center?tab=ai&fromPage=offsite&part_aid=offsite_claw 购买积分
-32601	请求接口错误	确认调用的工具在`mcporter list tencent-docs`返回的列表中存在
-32603 / 11607	请求参数错误	核对`file_id`、`content`等必填参数，确认参数格式与规范匹配

标准排查步骤

匹配错误码，按上表对应方案优先处理
执行mcporter list tencent-docs，确认工具存在且参数定义匹配
鉴权相关错误，重新执行授权流程
按场景路由表查阅对应参考文档，确认工具调用规范与约束

七、版本更新流程

查看当前版本：读取本文件顶部的version字段，格式为MAJOR.MINOR.PATCH

检查最新版本：执行以下命令获取版本更新信息

1	mcporter call "https://docs.qq.com/openapi/mcp" "check_skill_update" --args '{"version": "<当前版本号>"}'

版本更新：若当前版本低于返回的latest最新版本，遵循返回的instruction指令完成更新，或提示用户执行更新操作。
建议每日使用前执行一次版本更新检查。

腾讯文档 × WorkBuddy 实战使用案例合集

WorkBuddy 基于MCP协议与腾讯文档原生深度打通，用户完成一次账号授权后，即可通过自然语言指令，实现腾讯文档「读取/搜索/创建/编辑/归档」全流程自动化操作，无需手动下载、上传、切换应用，完成资料获取→AI加工→云端沉淀的完整工作流闭环。以下是覆盖个人办公、团队协作、业务落地三大维度的真实实战案例。

一、个人办公效率提升类案例

案例1：供应链从业者-自然语言驱动的个人工作流管理系统

场景痛点：供应链日常工作事项分散在微信、钉钉、OA、会议纪要中，订单交期跟进、紧急插单协调、设备异常处理、合同规格检查等多线程事项极易遗漏，传统手动记录待办、整理进度耗时且易出错。

实操流程：

完成WorkBuddy与腾讯文档授权，搭建专属的「订单跟进」智能文档与待办智能表格
全程通过微信WorkBuddy小程序用自然语言下达指令，无需打开电脑，示例指令：
- 「记录 A销售公司XX产品插单今天达成共识了，预计4月17日安排生产，同步关联原3月月度订单文档」
- 「跟进XX车间设备改造异常事项，对接人小素，4月11日提醒我确认整改进度」
WorkBuddy自动完成：拆解事项→写入腾讯文档对应表格→设置跟进提醒→关联相关文档→结构化梳理进展
到期自动触发提醒，同步更新事项状态，自动生成每日/每周进展汇总。

落地效果：

订单跟进事项遗漏率从15%降至0，跨部门协调响应效率提升60%
原本每天30分钟的事项整理工作，压缩至2分钟语音指令完成
所有工作进展可追溯，沉淀在腾讯文档中，随时可检索复盘。

案例2：职场人-全自动周报生成与归档

场景痛点：每周需手动整理本周工作内容、项目进展、下周计划，需从多个腾讯文档、表格中提取数据，手动排版汇总，单次耗时30分钟以上，重复机械工作占比高。

实操流程：

授权WorkBuddy访问个人腾讯文档工作目录，设置自动化规则：「每周五下午6点，自动读取本周项目文档、待办表格、会议纪要」
固定指令模板：「基于我本周腾讯文档内的所有工作内容，生成一份标准周报，包含本周核心成果、待解决问题、下周工作计划，格式适配公司周报模板，生成后直接保存到腾讯文档「周报归档」文件夹，命名格式：姓名-XXXX年第X周工作周报」
WorkBuddy自动执行：多文档内容读取→AI汇总提炼→按模板排版→自动创建并写入腾讯文档→同步归档到指定文件夹。

落地效果：

周报制作耗时从30分钟压缩至10分钟审阅时间，省时98%
无需手动切换多个文档复制粘贴，格式零错乱，数据无遗漏
所有周报自动归档到腾讯文档，形成个人工作台账，随时可检索追溯。

案例3：内容创作者-报告/PPT自动化生成与云端同步

场景痛点：制作汇报PPT、行业报告时，需频繁从腾讯文档调取历史数据、参考方案，手动复制粘贴易出现格式错乱、图表丢失，多设备切换操作繁琐。

实操流程：

电脑端/手机端均可下达指令，示例：「基于腾讯文档里的《Q1销售分析报告》内容，生成一份给老板汇报用的PPT，不超过10页，风格简洁商务，配色用深蓝+白色，包含封面、核心数据、问题分析、下一步计划」
WorkBuddy自动完成：精准定位腾讯文档目标文件→完整读取内容（含复杂表格、图表、版式）→生成PPT大纲与完整初稿→保留原数据格式不跑偏
生成完成后，一键回存到腾讯文档云端，手机、电脑多端实时同步，可直接打开分享、编辑。

落地效果：

一份10页的商务PPT制作耗时从3小时压缩至15分钟，省时91.7%
表格、图表、版式完整保留，无格式错乱，无需手动二次调整
通勤路上即可通过手机小程序完成制作，无需携带电脑，碎片化时间高效利用。

二、团队协作与管理类案例

案例1：市场团队-竞品分析报告自动化全流程

场景痛点：每周需手动收集竞品官网、公众号、应用商店的最新动态，整理数据、撰写分析报告，单次耗时3小时以上，信息收集繁琐、更新不及时。

实操流程：

团队共享腾讯文档空间，授权WorkBuddy访问「竞品分析」知识库
设置自动化任务：「每周一上午9点，自动抓取指定3个竞品的官网、公众号、App Store最新动态，结构化存入腾讯文档「竞品动态」智能表格」
补充指令：「基于本周抓取的竞品动态，按照团队模板生成竞品分析报告，标注核心变化、潜在风险、我方应对建议，生成后保存到腾讯文档「竞品分析报告」文件夹，并@负责人审阅」
WorkBuddy全流程自动执行，无需人工干预，周一到岗即可直接审阅完整报告。

落地效果：

每周竞品分析工作耗时从3小时压缩至10分钟审阅时间，效率提升94%
竞品动态抓取无遗漏，报告格式统一，团队成员可实时在腾讯文档中协同编辑、评论
所有历史报告、动态数据自动沉淀，形成团队竞品知识库，新人可快速查阅学习。

案例2：项目团队-跨部门协作事项跟进与待办闭环

场景痛点：跨部门项目协作中，事项对接人多、进度分散在不同群聊、会议中，待办事项跟进不及时，责任不清晰，极易出现延期。

实操流程：

项目组搭建腾讯文档共享空间，创建「项目跟进总表」智能表格，包含事项名称、对接人、截止时间、当前状态、风险等级等字段
会议结束后，直接在WorkBuddy下达指令：「把本次会议的待办事项拆解，对应到对接人、截止时间，写入腾讯文档的项目跟进总表，给每个事项设置到期前1天提醒，同步关联本次会议纪要文档」
日常跟进指令示例：「更新XX车间设备改造事项的状态为整改中，最新进展为已完成零件更换，预计4月11日完成验收，同步更新到项目跟进总表，给对接人小素设置4月11日的确认提醒」
WorkBuddy自动同步更新腾讯文档，到期自动触发提醒，每周自动生成项目进度汇总报告。

落地效果：

项目任务延期率从25%降至3%，跨部门协作沟通成本降低70%
所有事项进度可追溯、责任到人，全程在腾讯文档中透明化管理
无需手动更新表格、反复提醒对接人，项目管理工作量大幅降低。

案例3：团队管理-知识库自动化运维与更新

场景痛点：团队腾讯文档知识库越来越臃肿，文档重复、内容过时、版本号错误等问题频发，新人找不到关键信息，手动维护耗时耗力。

实操流程：

授权WorkBuddy访问团队腾讯文档知识库空间，设置定期自动化任务：「每月1号，自动扫描知识库内所有文档」
设定AI执行规则：
- 识别文档中的过时内容（过期政策、失效版本号、停用流程），标记并汇总
- 识别重复文档，标注相似度，推荐保留版本
- 基于文档内容生成知识图谱，可视化展示文档关联关系
- 为新人筛选生成「必读文档清单」，标注学习优先级
所有扫描结果、维护报告自动保存到腾讯文档知识库首页，负责人只需确认执行即可。

落地效果：

团队知识库维护成本降低70%，无需专人每月手动梳理
新人上手培训时间从2周缩短至3天，可快速通过必读清单掌握核心内容
知识库内容时效性、准确性大幅提升，重复文档、过时内容清零。

三、业务场景落地类案例

案例1：商务/法务-合同智能审阅与修改意见自动归档

场景痛点：客户频繁通过微信发送合同PDF，需逐条审阅、标记风险点、对比公司报价单、出具修改意见，传统流程需反复下载、上传、切换工具，全程耗时久，易遗漏风险。

实操流程：

客户在微信群发来合同PDF，直接转发到WorkBuddy微信小程序
语音下达指令：「把这份合同和腾讯文档项目文件夹里的对应报价单一起审阅，整理一份对比意见，标记风险条款、不符合公司规范的内容，给出修改建议，生成正式的审阅报告，保存到腾讯文档对应项目文件夹」
WorkBuddy自动完成：文件读取→内容比对→风险识别→报告生成→自动写入腾讯文档，全程无需手动下载任何文件。
打开腾讯文档即可直接查看完整报告，一键转发给客户或团队，修改后的合同可直接回存归档。

落地效果：

单份合同审阅耗时从2小时压缩至5分钟，风险识别准确率提升至92%
全程无下载、无上传、无应用切换，微信内即可完成全流程操作
所有合同、审阅报告自动归档到腾讯文档，形成完整业务台账，可随时检索追溯。

案例2：销售团队-客户订单跟进与数据自动同步

场景痛点：销售日常需跟进大量客户订单，订单信息分散在微信聊天、报价单、合同文档中，手动同步到订单表格易出错，客户跟进提醒不及时，丢单风险高。

实操流程：

团队在腾讯文档搭建「销售订单管理」智能表格，关联客户档案、报价单、合同文档
销售通过微信WorkBuddy小程序下达指令：「记录XX客户XX产品订单，今天已达成共识，订单金额10万元，预计4月20日付款，对接人XX，联系方式XX，同步关联对应报价单和合同文档，设置付款前3天跟进提醒」
WorkBuddy自动将信息写入腾讯文档智能表格，自动关联相关文档，到期自动触发跟进提醒，每周自动生成个人/团队销售业绩汇总报告。
管理人员可实时在腾讯文档中查看全团队订单进度，无需销售手动提报。

落地效果：

订单信息录入耗时从10分钟/单压缩至1分钟语音指令，录入错误率清零
客户订单跟进遗漏率降至0，回款及时率提升40%
销售数据实时同步，团队业绩统计效率提升80%，无需手动汇总报表。

案例3：行政/HR-批量入职通知与员工档案自动归档

场景痛点：批量新员工入职时，需手动发送入职通知、整理员工档案、创建个人学习文档，重复操作多，单次批量处理需3小时以上，易出现信息错误、遗漏。

实操流程：

HR在腾讯文档创建「新员工入职名单」智能表格，包含员工姓名、岗位、入职时间、联系方式等信息，搭建员工档案知识库
在WorkBuddy下达指令：「读取腾讯文档里的新员工入职名单，给每位员工生成定制化入职通知，包含入职时间、所需材料、办公地址、对接人信息；同时为每位员工创建个人入职档案文档，包含入职须知、岗位手册、学习清单，归档到腾讯文档「员工档案」文件夹，命名格式：姓名-岗位-入职档案」
WorkBuddy自动批量执行，100份入职通知与档案文档最快5分钟即可全部完成。

落地效果：

100人批量入职处理耗时从3小时压缩至5分钟，效率提升97%
员工信息零错误、零遗漏，所有档案自动归档到腾讯文档，权限分级管理，安全可控
新员工入职文档可直接分享，实时协同编辑，大幅降低HR重复工作量。

参考资料

DeepSeek-TUI 完全解析：终端原生 AI 编码智能体

2026-05-05T10:45:00.000Z

DeepSeek-TUI 是一款终端原生的 AI 编码智能体，基于 Rust 开发，专为 DeepSeek V4 系列大模型打造。它完全运行在终端环境中，可直接读写文件、执行 Shell 命令、网页搜索、Git 管理、调度子智能体，基于 ratatui 框架构建了全键盘驱动的高速交互界面。

一、核心差异化特性

与浏览器端 AI 助手、通用聊天前端不同，DeepSeek-TUI 专为代码优先的工作流设计，AI 可直接操作文件系统、终端和 Git 历史。

1. 实时思维链流式展示

可实时输出模型的思考过程，支持 3 档推理强度（off → high → max），会话中随时可通过 Shift+Tab 切换，平衡推理深度与响应速度。

2. 全工具套件真实执行权限

不只是建议命令，可直接执行。内置工具覆盖：

文件读写/编辑
Shell 命令执行
Git 操作
网页搜索、URL 抓取（含 PDF 提取）
补丁应用（apply-patch）
子智能体生成
MCP 协议对接

所有工具调用默认需用户审批，完全可控。

3. 智能上下文管理

适配 DeepSeek V4 系列 1M token 上下文窗口，可投喂完整代码库；上下文满额时自动执行压缩策略，无需手动裁剪。

4. 多档交互模式

按 Tab 可循环切换，覆盖从只读调研到全自动执行的全场景需求：

模式	说明
Plan	只读调研模式，仅可读取文件、查看信息，无修改/执行权限
Agent	默认交互模式，所有操作需用户审批，安全可控
YOLO	自动审批执行模式，无需用户确认即可执行所有操作
Hetun（河豚）	通过递归子智能体并行完成任务调研与拆解

二、完整核心功能清单

功能模块	核心说明
思维链流式展示	实时呈现 DeepSeek 的思考推理过程
全工具套件	支持文件操作、Shell、Git、网页搜索、PDF 提取、补丁应用、子智能体、MCP 协议
1M token 上下文	支持完整代码库投喂，上下文满额自动智能压缩
多交互模式	Plan（只读调研）、Agent（审批制交互）、YOLO（自动审批执行）、Hetun（并行子智能体任务拆解）
会话保存/恢复	支持长会话断点续传、对话分叉
HTTP/SSE 运行时 API	支持 `deepseek serve --http` 启动无头智能体工作流
MCP 协议兼容	可对接模型上下文协议服务器，扩展工具能力
实时成本追踪	单轮与会话级别的 token 用量、成本预估
主题切换	支持深浅色主题，DeepSeek 品牌蓝色调色板
macOS 沙箱	基于 Seatbelt 的沙箱配置，限制文件写入权限

三、架构与仓库结构

项目采用 Cargo 工作空间组织，包含 12+ 个职责单一的 crates，遵循分层架构（上层依赖下层，反向不可依赖）。

Crate 路径	包名	核心职责
`crates/cli`	deepseek-cli	CLI 入口、参数解析、命令路由
`crates/tui`	deepseek-tui	完整终端 UI、引擎运行时、工具执行、流式处理、会话管理（当前核心运行时）
`crates/app-server`	deepseek-app-server	基于 axum 的 HTTP/SSE 运行时 API 服务
`crates/core`	deepseek-core	智能体循环编排、会话与轮次管理
`crates/agent`	deepseek-agent	模型/服务商注册与降级策略
`crates/tools`	deepseek-tools	工具调用生命周期、Schema 校验、调度并行性
`crates/config`	deepseek-config	配置加载、配置文件、环境变量解析
`crates/state`	deepseek-state	基于 SQLite 的会话/线程持久化与恢复
`crates/execpolicy`	deepseek-execpolicy	沙箱/审批决策的执行策略引擎

注：当前 crates/tui 是终端用户的核心运行时，其余 crates 正在逐步拆分抽离。二次开发可优先从 crates/tui/src/ 入手。

分层架构

整体遵循 Dispatcher → TUI → Engine → Tools 分层模式：

Dispatcher：deepseek CLI 二进制为轻量级调度器，解析子命令后委托给 deepseek-tui 二进制处理交互式会话
TUI 层：基于 ratatui 构建终端界面，负责用户交互
Engine 层：异步执行代理循环，管理会话状态、轮次追踪、持久化任务队列；对接 OpenAI 兼容的 Chat Completions 流式客户端
Tools 层：类型化工具注册表，分发执行文件、Shell、Git、Web、MCP 等操作

四、支持模型与定价

默认适配 DeepSeek V4 模型家族，支持 NVIDIA NIM 托管变体。

模型	上下文窗口	输入（缓存命中）	输入（缓存未命中）	输出
`deepseek-v4-pro`	1M	$0.03625 / 1M token	$0.435 / 1M token	$0.87 / 1M token
`deepseek-v4-flash`	1M	$0.028 / 1M token	$0.14 / 1M token	$0.28 / 1M token

注：deepseek-v4-pro 定价为限时 75% 折扣价，有效期至 2026-05-05；NVIDIA NIM 变体按 NVIDIA 账户条款计费，不产生 DeepSeek 平台账单。

五、快速安装与启动

方式 1：npm 安装（推荐）

自动从 GitHub Release 下载预编译二进制文件：

# 全局安装
npm install -g deepseek-tui

# 启动
deepseek

方式 2：Cargo 源码编译安装（需 Rust 1.85+）

# 安装 deepseek CLI
cargo install deepseek-tui-cli --locked

# 安装 deepseek-tui 命令
cargo install deepseek-tui --locked

Linux ARM64 适配（树莓派、Asahi、Graviton 等）

v0.8.8+ 版本可直接用 npm i -g deepseek-tui（glibc 环境）
旧版本/特殊环境可通过 Rust 构建

首次启动配置

首次运行会提示输入 DeepSeek API Key，也可通过以下方式配置：

环境变量：DEEPSEEK_API_KEY
命令行：deepseek login

六、扩展子系统

LSP 子系统

启动 rust-analyzer/pyright 等语言服务器，提供代码编辑后的诊断能力，并将错误注入模型上下文。

RLM 子系统

沙箱化 Python REPL，支持批量分类、子 LLM 编排。

七、适用场景

DeepSeek-TUI 旨在成为开发者命令行中的 AI 结对编程伙伴，尤其适合：

长时间、复杂交互的编码任务
需要完整代码库上下文的项目分析
希望 AI 直接执行操作而非仅提供建议的开发者
需要实时查看 AI 推理过程的场景

SkillHub 深度研究报告：22 个 AI 技能完整数据分析

2026-05-05T10:30:00.000Z

📅 研究报告生成时间: 2026-05-05 06:10:00
🌐 数据来源: SkillHub (https://skillhub.cn)
🤖 研究方法: 使用 playwright-cli 自动化提取技能页面信息
📊 技能总数: 22 个
🔍 研究深度: 详细信息（包含描述、版本、下载量、安全检测等）

SkillHub 作为 AI 智能体技能的核心社区，汇聚了来自 ClawHub 和用户上传的各类技能。本报告通过自动化工具深度抓取了 22 个技能的完整数据，从下载量、收藏数、安全检测等多个维度进行定量分析，为你揭示哪些技能真正值得安装。

📊 概览统计

指标	数值
技能总数	22 个
ClawHub 来源	21 个 (95.5%)
用户上传	1 个 (4.5%)
总下载量	约 334.8 万次
总收藏数	约 11314 次

🔒 安全检测统计

SkillHub 对技能进行双重安全检测（科恩实验室 + 云鼎实验室）。检测结果分布如下：

安全等级	技能数量
安全无风险	20 个技能
可疑（潜在风险）	1 个技能 ⚠️
未检测	1 个技能

说明: 部分技能可能在一个检测中被评为”可疑”，需谨慎使用。建议安装前使用 Skill Vetter 技能进行二次审查。

📚 技能详细说明

以下是所有 22 个技能的详细信息，按字母顺序排列。

1. Agent Browser (agent-browser)

📋 基本信息

属性	值
技能标识	`agent-browser`
作者	thesethrose
来源	ClawHub
版本	0.2.0
下载量	24.8万
收藏数	679
安全检测	✅ 安全，无风险

📝 功能描述

基于 Rust 的快速无头浏览器自动化 CLI，支持 Node.js 回退，允许 AI 代理通过结构化命令执行页面导航、点击、输入和快照操作。

📖 文档章节

Browser Automation with agent-browser
Installation
npm recommended
From Source
Quick start

2. Agent Browser ClawdBot (agent-browser-clawdbot)

📋 基本信息

属性	值
技能标识	`agent-browser-clawdbot`
作者	matrixy
来源	ClawHub
版本	0.1.0
下载量	10.2万
收藏数	368
安全检测	✅ 安全，无风险

📝 功能描述

专为 AI 智能体优化的无头浏览器自动化 CLI，支持无障碍树快照和基于引用的元素选择。

📖 文档章节

Agent Browser Skill
Why Use This Over Built-in Browser Tool
Core Workflow
Key Commands
Navigation

3. Agent Memory (agent-memory)

📋 基本信息

属性	值
技能标识	`agent-memory`
作者	dennis-da-menace
来源	ClawHub
版本	1.0.0
下载量	6.7万
收藏数	48
安全检测	✅ 安全，无风险

📝 功能描述

为 AI 智能体提供持久记忆，用于跨会话存储事实、从行动中学习、回忆信息及追踪实体。

4. Auto-Updater Skill (auto-updater)

📋 基本信息

属性	值
技能标识	`auto-updater`
作者	maximeprades
来源	ClawHub
版本	1.0.0
下载量	8.8万
收藏数	393
安全检测	✅ 安全，无风险

📝 功能描述

每日自动更新 Clawdbot 及所有已安装技能。运行 cron 检查更新并应用，同时向用户发送变更摘要。

📖 文档章节

Auto-Updater Skill
What It Does
Setup
Quick Start
Configuration Options

5. Automation Workflows (automation-workflows)

📋 基本信息

属性	值
技能标识	`automation-workflows`
作者	jk-0001
来源	ClawHub
版本	0.1.0
下载量	7.1万
收藏数	275
安全检测	✅ 安全，无风险

📝 功能描述

设计和实施自动化工作流，帮助个体创业者节省时间并扩展业务。用于识别可自动化的重复性任务、跨工具构建工作流、设置触发器和操作，或优化现有自动化。涵盖自动化机会识别、工作流设计、工具选择（Zapier、Make、n8n）、测试及维护。

6. Desktop Control (desktop-control)

📋 基本信息

属性	值
技能标识	`desktop-control`
作者	matagul
来源	ClawHub
版本	1.0.0
下载量	5.1万
收藏数	326
安全检测	✅ 安全，无风险

📝 功能描述

具备鼠标、键盘和屏幕控制的高级桌面自动化能力。

📖 文档章节

Desktop Control Skill
🎯 Features
Mouse Control
Keyboard Control
Screen Operations

7. Excel / XLSX (excel-xlsx)

📋 基本信息

属性	值
技能标识	`excel-xlsx`
作者	ivangavila
来源	ClawHub
版本	1.0.2
下载量	9.8万
收藏数	308
安全检测	✅ 安全，无风险

📝 功能描述

创建、检查和编辑 Microsoft Excel 电子表格及 XLSX 文件，支持公式、格式化、数据验证、图表、透视表及数据分析功能。

8. Find Skills (find-skills)

📋 基本信息

属性	值
技能标识	`find-skills`
作者	jimluxinghai
来源	ClawHub
版本	0.1.0
下载量	40.2万
收藏数	1.1千
安全检测	✅ 安全，无风险

📝 功能描述

当用户询问”如何做某事”、”寻找某技能”或希望扩展功能时，帮助发现并安装智能体技能。适用于寻找可安装功能的场景。

9. Github (github)

📋 基本信息

属性	值
技能标识	`github`
作者	steipete
来源	ClawHub
版本	1.0.0
下载量	26.6万
收藏数	561
安全检测	✅ 安全，无风险

📝 功能描述

使用 gh CLI 与 GitHub 交互，通过 gh issue、gh pr、gh run 和 gh api 管理议题、PR、CI 运行及高级查询。

10. Humanizer (humanizer)

📋 基本信息

属性	值
技能标识	`humanizer`
作者	biostartechnology
来源	ClawHub
版本	1.0.0
下载量	14.9万
收藏数	584
安全检测	✅ 安全，无风险

📝 功能描述

消除 AI 写作痕迹，使文本更自然真实。基于维基百科”AI 写作特征”指南，识别并修正夸张象征、宣传用语、肤浅-ing 分析、模糊归因、破折号滥用、三项排比、AI 词汇、负面平行结构及冗长连接词等模式。

11. Markdown Converter (markdown-converter)

📋 基本信息

属性	值
技能标识	`markdown-converter`
作者	steipete
来源	ClawHub
版本	1.0.0
下载量	4.5万
收藏数	171
安全检测	✅ 安全，无风险

📝 功能描述

使用 markitdown 将文档和文件转换为 Markdown。用于将 PDF、Word (.docx)、PowerPoint (.pptx)、Excel (.xlsx, .xls)、HTML、CSV、JSON、XML、图片（含 EXIF/OCR）、音频（含转录）、ZIP 压缩包、YouTube 链接或 EPub 转换为 Markdown 格式，以进行 LLM 处理或文本分析。

12. Mcporter (mcporter)

📋 基本信息

属性	值
技能标识	`mcporter`
作者	steipete
来源	ClawHub
版本	1.0.0
下载量	6.0万
收藏数	183
安全检测	✅ 安全，无风险

📝 功能描述

使用 mcporter CLI 直接列出、配置、认证及调用 MCP 服务器/工具（支持 HTTP 或 stdio），涵盖临时服务器、配置编辑及 CLI/类型生成功能。

13. Obsidian (obsidian)

📋 基本信息

属性	值
技能标识	`obsidian`
来源	用户上传
安全检测	✅ 安全，无风险

📝 功能描述

与 Obsidian 笔记应用集成，支持笔记创建、编辑、链接管理、标签组织和知识图谱构建。适用于个人知识管理和第二大脑搭建。

14. Pdf (pdf)

📋 基本信息

属性	值
技能标识	`pdf`
作者	awspace
来源	ClawHub
版本	0.1.0
下载量	3.3万
收藏数	51
安全检测	✅ 安全，无风险

📝 功能描述

全面的 PDF 处理工具包，支持提取文本和表格、创建新 PDF、合并/拆分文档及表单填写。Claude 需要大规模程序化处理、生成或分析 PDF 时使用。

15. Powerpoint / PPTX (powerpoint-pptx)

📋 基本信息

属性	值
技能标识	`powerpoint-pptx`
作者	ivangavila
来源	ClawHub
版本	1.0.1
下载量	4.1万
收藏数	118
安全检测	✅ 安全，无风险

📝 功能描述

创建、检查和编辑 Microsoft PowerPoint 演示文稿及 PPTX 文件，支持可靠的布局、模板、占位符、备注、图表和视觉质检。

16. Self-Improving Agent (self-improving-agent)

📋 基本信息

属性	值
技能标识	`self-improving-agent`
作者	pskoett
来源	ClawHub
版本	3.0.21
下载量	56.7万
收藏数	3.4千
安全检测	✅ 安全，无风险

📝 功能描述

捕获经验教训、错误和纠正，以实现持续改进。使用时机：（1）命令或操作意外失败；（2）用户纠正 AI 的输出；（3）用户请求缺失的功能；（4）API/外部工具失败；（5）知识过时；（6）发现更好的方法。

📖 文档章节

Self-Improvement Skill
First-Use Initialisation
Quick Reference
OpenClaw Setup (Recommended)
Installation
Workspace Structure
Create Learning Files
Promotion Targets
Inter-Session Communication
Logging Format

17. Skill Creator (skill-creator)

📋 基本信息

属性	值
技能标识	`skill-creator`
作者	chinden
来源	ClawHub
版本	0.1.0
下载量	7.9万
收藏数	277
安全检测	✅ 安全，无风险

📝 功能描述

创建有效技能指南。当用户希望创建新技能（或更新现有技能）以利用专业知识、工作流程或工具集成扩展 Claude 的能力时，应使用此技能。

18. Skill Vetter (skill-vetter)

📋 基本信息

属性	值
技能标识	`skill-vetter`
作者	spclaudehome
来源	ClawHub
版本	1.0.0
下载量	22.9万
收藏数	1.0千
安全检测	✅ 安全，无风险

📝 功能描述

AI 智能体技能安全预审工具。安装 ClawdHub、GitHub 等来源技能前，检查风险信号、权限范围及可疑模式。

19. Summarize (summarize)

📋 基本信息

属性	值
技能标识	`summarize`
作者	steipete
来源	ClawHub
版本	1.0.0
下载量	41.5万
收藏数	753
安全检测	⚠️ 可疑，存在潜在风险

📝 功能描述

使用 summarize CLI 总结 URL 或文件（支持网页、PDF、图片、音频、YouTube）。

⚠️ 安全提示: 该技能在云鼎实验室检测中被评为”可疑，存在潜在风险”，建议谨慎使用或查看安全报告后再决定是否安装。

20. 腾讯文档 TENCENT DOCS (tencent-docs)

📋 基本信息

属性	值
技能标识	`tencent-docs`
作者	腾讯文档
来源	ClawHub
版本	1.0.32
下载量	4.8万
收藏数	34
安全检测	✅ 安全，无风险

📝 功能描述

腾讯文档（docs.qq.com）- 在线云文档平台，是创建、编辑、管理文档的首选 skill。支持能力：(1) 创建各类在线文档（文档/Word/Excel/幻灯片/思维导图/流程图/智能表格/收集表）(2) 管理知识库空间（创建空间、查询空间列表）(3) 管理空间节点、文件夹结构 (4) 读取/搜索文档内容 (5) 编辑操作智能表 (6) 编辑操作在线文档 (7) 文件管理（重命名、移动、删除、复制、导入导出）(8) 网页剪藏、本地文件/文档上云

21. Weather (weather)

📋 基本信息

属性	值
技能标识	`weather`
作者	steipete
来源	ClawHub
版本	1.0.0
下载量	19.1万
收藏数	377
安全检测	✅ 安全，无风险

📝 功能描述

获取当前天气和预报（无需 API 密钥）。

📖 文档章节

Weather
wtrr.in (primary)
Open-Meteo (fallback, JSON)

22. Word / DOCX (word-docx)

📋 基本信息

属性	值
技能标识	`word-docx`
作者	ivangavila
来源	ClawHub
版本	1.0.2
下载量	9.8万
收藏数	308
安全检测	✅ 安全，无风险

📝 功能描述

创建、检查和编辑 Microsoft Word 文档及 DOCX 文件，支持样式、编号、修订记录、表格、分节符及兼容性检查等功能。

📊 下载量排行 TOP 10

排名	技能名称	下载量
🥇	Self-Improving Agent	56.7万次
🥈	Summarize	41.5万次
🥉	Find Skills	40.2万次
4	GitHub	26.6万次
5	Agent Browser	24.8万次
6	Skill Vetter	22.9万次
7	Weather	19.1万次
8	Humanizer	14.9万次
9	Agent Browser ClawdBot	10.2万次
10	Excel / XLSX	9.8万次

📊 收藏数排行 TOP 10

排名	技能名称	收藏数
🥇	Self-Improving Agent	3.4千
🥈	Find Skills	1.1千
🥉	Skill Vetter	1.0千
4	Summarize	753
5	GitHub	561
6	Humanizer	584
7	Agent Browser	679
8	Skill Creator	277
9	Automation Workflows	275
10	Word / DOCX	308

💡 使用建议

优先选择 ClawHub 来源的技能 — 经过社区验证，质量较高
注意安全检测评级 — 避免”或有潜在风险”的技能，除非你已审查代码
查看下载量和收藏数 — 高下载量通常意味着更好的兼容性和稳定性
阅读完整文档 — 每个技能页面都包含详细的使用说明和示例
定期更新技能 — 使用 auto-updater 技能可以自动保持技能最新
安装前使用 Skill Vetter — 对未知来源的技能进行安全预审

📖 研究方法说明

本研究报告使用以下方法生成：

自动化数据收集: 使用 playwright-cli 工具自动访问 SkillHub 上的 22 个技能页面
结构化信息提取: 从页面的可访问性树中提取关键信息（名称、描述、版本、下载量等）
数据验证: 交叉验证多个数据源，确保信息准确性
报告生成: 将结构化数据转换为易读的 Markdown 格式

工具链:

playwright-cli — 浏览器自动化
python3 — 数据处理和报告生成
bash — 自动化脚本

报告生成时间: 2026-05-05 06:10:00
研究报告版本: v3.0 (最终版)
数据来源: SkillHub (https://skillhub.cn)

SkillHub 技能清单：21 个 AI 智能体技能全解析

2026-05-05T00:30:00.000Z

SkillHub 技能清单：21 个 AI 智能体技能全解析

来源：SkillHub 中文社区 — 专为中国用户优化的 Skills 社区（2026-05-05 整理）

SkillHub 技能覆盖了从 AI 写作优化、浏览器自动化、记忆管理、工作流设计到文档处理、天气查询等全方位功能。这些技能共同构成了一个完整的 AI 助手能力生态系统。

技能分类总览

类别	包含技能
基础工具类	Weather、Summarize、Find Skills
自动化类	Agent Browser、Desktop Control、Automation Workflows
文档处理类	Word/DOCX、Excel/XLSX、PowerPoint/PPTX、PDF、Markdown Converter
开发工具类	GitHub、MCPorter、Obsidian
AI 增强类	Humanizer、Self-Improving Agent、Agent Memory、Auto-Updater
安全与管理类	Skill Vetter、Skill Creator
云服务集成	Tencent Docs

1. Self-Improving Agent

链接：skillhub.cn/skills/self-improving-agent

捕获经验教训、错误和纠正，实现跨会话持续改进。AI 犯过的错误不再重蹈覆辙。

核心机制

情形	操作
命令/操作失败	记录到 `.learnings/ERRORS.md`
用户纠正	记录到 `.learnings/LEARNINGS.md`（category: correction）
用户需要缺失功能	记录到 `.learnings/FEATURE_REQUESTS.md`
API/外部工具失败	记录到 `.learnings/ERRORS.md`（含集成细节）
知识过时	记录到 `.learnings/LEARNINGS.md`（category: knowledge_gap）
发现更优方案	记录到 `.learnings/LEARNINGS.md`（category: best_practice）

晋升目标

目标文件	适用内容
`SOUL.md`	行为模式、沟通风格
`AGENTS.md`	工作流改进
`TOOLS.md`	工具使用技巧
`CLAUDE.md`	项目事实、约定、坑点
`.github/copilot-instructions.md`	GitHub Copilot 项目上下文

优先级与领域标签

优先级：critical / high / medium / low
领域：frontend / backend / infra / tests / docs / config

2. Summarize

链接：skillhub.cn/skills/summarize

使用 summarize CLI 总结 URL 或文件，支持网页、PDF、图片、音频、YouTube 视频。

支持格式

网页（URL）
PDF 文件
图片（OCR）
音频文件
YouTube 视频

核心配置

模型 + Keys：支持多种模型，需配置 API Key
常用标志：支持定制输出格式和长度

3. Find Skills

链接：skillhub.cn/skills/find-skills

当用户询问”如何做某事”、”寻找某技能”或希望扩展功能时，帮助发现并安装智能体技能。

工作流

理解需求（领域 + 任务）
skillhub search 搜索
若无匹配则 clawhub search 回退
向用户呈现选项并提供安装命令

4. GitHub

链接：skillhub.cn/skills/github

使用 gh CLI 与 GitHub 交互，支持 Issue、PR、Run 和 API 高级查询。

核心能力

Pull Requests：gh pr 查看、创建、管理 PR
Issues：gh issue 追踪问题
Actions：gh run 查看 CI/CD 运行状态
API 高级查询：处理复杂数据需求

5. Agent Browser（Rust 版）

链接：skillhub.cn/skills/agent-browser

基于 Rust 的快速无头浏览器自动化 CLI，支持 Node.js 回退，允许 AI 代理通过结构化命令自动化浏览器操作。

安装

1 2	npm install -g agent-browser agent-browser install

核心命令

命令	说明
`agent-browser open`	导航到指定 URL
`agent-browser snapshot -i --json`	获取可交互元素快照
`agent-browser click @e2`	点击指定元素
`agent-browser fill @e3 "text"`	填写表单字段
`agent-browser screenshot page.png`	页面截图/PDF

6. Skill Vetter

链接：skillhub.cn/skills/skill-vetter

AI 智能体技能安全预审工具。安装 ClawdHub、GitHub 等来源技能前，检查风险信号、权限范围和可疑模式。

审核协议

检查内容：权限范围、数据访问、文件系统操作、网络请求
风险信号：危险权限、敏感数据处理、不明依赖
适用场景：安装前审核、已知技能复审

7. Weather

链接：skillhub.cn/skills/weather

获取当前天气和预报，无需 API 密钥。数据来源支持 wttr.in（主站）和 Open-Meteo（备用）。

数据源

源	说明
wttr.in	主数据源，无需密钥
Open-Meteo	JSON 格式备用源

8. Humanizer

链接：skillhub.cn/skills/humanizer

消除 AI 写作痕迹，使文本更自然真实。基于维基百科”AI 写作特征”指南，识别并修正夸张象征、宣传用语、肤浅过渡等模式。

核心修正

人格与灵魂：添加真实声音，避免无灵魂的干净文本
内容模式：消除不必要的重要性强调、宽泛宣言、虚假平衡
风格：打破”首先……其次……最后”等机械结构

9. Word / DOCX

链接：skillhub.cn/skills/word-docx

创建、检查和编辑 Microsoft Word 文档及 DOCX 文件，支持样式、编号、修订记录、页眉页脚等完整功能。

核心规则

将 DOCX 视为 OOXML，而非纯文本
样式和直接格式需精确保留
列表和编号是独立系统
页面布局存在于 sections 中
修订、批注和字段需精确编辑
交付前验证往返兼容性

10. Excel / XLSX

链接：skillhub.cn/skills/excel-xlsx

创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件，支持可靠的公式、日期处理、数据类型保护。

核心规则

根据任务选择工作流，而非习惯
日期是带有遗留怪癖的序列号
保持计算在 Excel 中以维持工作簿活性
在 Excel 破坏数据前保护数据类型
更改内容前保留工作簿结构
重新计算后再交付

11. PowerPoint / PPTX

链接：skillhub.cn/skills/powerpoint-ptx

创建、检查和编辑 Microsoft PowerPoint 演示文稿及 PPTX 文件，支持幻灯片、动画、备注等。

核心规则

选择工作流前先了解任务
理解幻灯片母版和布局继承
动画和过渡需精确控制
备注与幻灯片内容分开管理

12. PDF

链接：skillhub.cn/skills/pdf

全面的 PDF 处理工具包，支持提取文本和表格、创建新 PDF、合并/拆分文档及表单填写。

支持场景

文本/表格提取
新 PDF 创建
合并与拆分
表单填写
大规模程序化处理

13. Obsidian

链接：skillhub.cn/skills/obsidian

操作 Obsidian 仓库（纯 Markdown 笔记）并通过 obsidian-cli 自动化。适用于知识管理、笔记整理、第二大脑搭建。

核心命令

查找活跃的保险库（vault）
obsidian-cli quick start 快速上手
笔记创建、搜索、标签管理

14. Skill Creator

链接：skillhub.cn/skills/skill-creator

创建有效技能指南。当用户希望创建新技能（或更新现有技能）以利用专业知识、工作流程或工具时使用。

技能价值

结构化指令：将专业知识转化为 AI 可执行的步骤
工具集成：封装工具调用和工作流
场景覆盖：特定领域任务的完整指南

15. Automation Workflows

链接：skillhub.cn/skills/automation-workflows

设计和实施自动化工作流，帮助个体创业者节省时间并扩展业务。

工作流

Step 1：识别可自动化的任务
Step 2：设计工作流步骤
Step 3：实施与测试
Step 4：监控和优化

16. MCPorter

链接：skillhub.cn/skills/mcporter

使用 mcporter CLI 直接列出、配置、认证及调用 MCP 服务器/工具（支持 HTTP 或 stdio）。

核心能力

列出可用 MCP 服务器
配置认证信息
调用工具并处理响应
CLI/type 生成

17. Agent Browser（OpenClaw 版）

链接：skillhub.cn/skills/agent-browser-clawdbot

专为 AI 智能体优化的无头浏览器自动化 CLI，支持无障碍树快照和基于引用的元素选择，OpenClaw 集成版。

优势

特性	说明
确定性元素选择	通过 ref 引用而非坐标
无障碍树快照	完整可访问性信息
多会话隔离	支持并发浏览器上下文
状态保存	跳过登录流程

核心命令

agent-browser open 
agent-browser snapshot -i --json
agent-browser click @e2
agent-browser fill @e3 "text"
agent-browser wait --load networkidle

18. Desktop Control

链接：skillhub.cn/skills/desktop-control

具备鼠标、键盘和屏幕控制的高级桌面自动化技能。

功能

鼠标控制：移动、点击、拖拽
键盘控制：按键、组合键、文字输入
屏幕控制：截图、视觉检测、区域识别

19. Markdown Converter

链接：skillhub.cn/skills/markdown-converter

使用 markitdown 将各类文档和文件转换为 Markdown 格式。

支持格式

Word (.docx)
Excel (.xlsx)
PowerPoint (.pptx)
PDF
HTML
其他文档格式

20. Agent Memory

链接：skillhub.cn/skills/agent-memory

为 AI 智能体提供持久记忆，用于跨会话存储事实、从行动中学习、回忆信息及追踪实体。

功能

跨会话持久化事实存储
从历史行动中学习
实体追踪
语义检索

21. Auto-Updater

链接：skillhub.cn/skills/auto-updater

每日自动更新 Clawdbot 及所有已安装技能。运行 cron 检查更新并发送更新摘要到主会话。

配置选项

选项	默认值	说明
Time	4:00 AM	运行更新时间
Timezone	System default	时区
Delivery	Main session	摘要投递位置

功能

Clawdbot 本身自动更新
所有已安装技能更新
生成更新摘要报告
手动命令支持

安装命令汇总

以上所有技能均可通过以下命令安装：

1	skillhub install

常用安装示例

skillhub install self-improving-agent
skillhub install summarize
skillhub install find-skills
skillhub install github
skillhub install agent-browser
skillhub install skill-vetter
skillhub install weather
skillhub install humanizer
skillhub install word-docx
skillhub install excel-xlsx
skillhub install powerpoint-ptx
skillhub install pdf
skillhub install obsidian
skillhub install skill-creator
skillhub install automation-workflows
skillhub install mcporter
skillhub install agent-browser-clawdbot
skillhub install desktop-control
skillhub install markdown-converter
skillhub install agent-memory
skillhub install auto-updater

最后更新：2026-05-05

Claude Code 三大工程化工具横评：Superpowers vs Compound Engineering vs Everything-Claude-Code

2026-05-04T13:10:00.000Z

Claude Code 三大工程化工具横评

三者均为 Claude Code 生态的顶级增强工具，但核心定位、解决的问题、适用场景完全不同，并非同质化竞品，而是可互补协同的工程化套件。

通俗类比

工具	类比	核心定位
Superpowers	给 AI 编程套上标准化工程纪律与流程护栏的操作手册	AI 开发的「纪律系统」
Compound Engineering	在规范流程基础上，新增知识复利沉淀的成长型工程体系	AI 开发的「成长体系」
Everything-Claude-Code	给 Claude Code 一键装上的全功能、开箱即用的顶配改装套件	一站式「能力大礼包」

核心维度对比总表

对比维度	Superpowers	Compound Engineering	Everything-Claude-Code
核心定位	强约束软件工程方法论框架，AI开发的「纪律系统」	带知识复利的完整工程闭环，AI开发的「成长体系」	Claude Code全栈增强配置集合，一站式「能力大礼包」
核心理念	Process over Prompt（流程大于提示词），让AI守规矩而非更聪明	让工程效率实现复利增长，每一次开发都让AI更懂你的项目	把Claude Code从聊天工具变成可深度定制的Agent编排平台
核心工作流	头脑风暴→规划→执行→审查，四步闭环，全流程强制校验	计划→执行→审查→复合（沉淀），在标准流程基础上新增知识沉淀环节	无固定单一流线，覆盖从需求、开发、测试、安全到运维全生命周期的模块化能力
核心能力	15+可组合Skills，强制TDD、系统化调试、子代理隔离开发	24个专业Agent、16个专属命令、11项核心技能，核心是经验召回与知识复用	48个专家子代理、183个Skills、79条快捷命令，配套Hooks、MCP、安全防护
适用人群	追求工程规范的个人/团队，复杂业务项目、长期维护的代码库	长期迭代项目的开发者/团队，需要沉淀技术资产、复用项目经验	所有Claude Code用户，新手快速上手、全场景能力覆盖需求
核心优势	生态最成熟（170k+ Stars），流程经过海量项目验证，跨平台兼容性极强	唯一聚焦「知识复利」的工具，完美补全经验沉淀环节	体量最大、能力最全，一键安装即可获得社区沉淀的几乎所有高阶玩法
核心短板	缺少跨会话的知识沉淀能力，对一次性小项目流程偏繁琐	社区体量远小于另外两者，单独使用流程完整性不如Superpowers	体量过大，全量安装有功能冗余，无强统一流程约束
生态兼容性	全平台兼容（Claude Code、Cursor、Codex、Copilot等）	原生适配Claude Code，同时支持转换为其他平台插件格式	原生仅适配Claude Code，其他平台兼容性弱
支持平台数	7个	11个	5个

各工具深度解析

1. Superpowers：AI编程的「工程纪律法典」

Superpowers 是 Claude 生态最顶流的工作流框架，核心解决的是 AI 原生的「即兴编码」问题」——AI 拿到需求就直接写代码，跳过需求澄清、架构设计、测试验证等关键环节。

核心机制：
把工业级软件工程最佳实践，拆解成可组合的 Skills 和强制执行的铁律
TDD 的「红-绿-重构」循环，调试必须先做根因分析
3次修复失败自动触发架构评审
子代理隔离 + Git Worktree 隔离，每个任务委派独立子代理

典型使用：

1
2
3

/brainstorming   # 厘清需求
/write-plan      # 拆解2-5分钟可完成的最小任务
/execute-plan    # 带检查点执行，全程自动触发代码审查和测试验证

2. Compound Engineering：带复利增长的「成长型工程体系」

CE 完全继承了 Superpowers 的标准化流程，核心突破是补全了 AI 开发缺失的「学习沉淀」环节，核心理念是「与其让技术债越滚越大，不如让知识复利越积越多」。

核心灵魂：/compound 命令
每次开发完成后，强制把成功模式、踩坑经验、项目特有规范、架构设计决策系统地文档化
转化为 AI 可识别、可召回的可复用知识
配套 /learn 和 /recall 命令，AI 可以主动学习你的代码库规范

解决的痛点：

团队新人接手项目不用再反复问「代码为什么这么写」
长期迭代项目不会陷入「改一个 bug 埋三个 bug」的死亡螺旋

3. Everything-Claude-Code：Claude Code 的「一站式顶配改装包」

ECC 不是单一的工作流框架，而是一套经过生产环境验证的、完整的 Claude Code 增强配置集合，由 Anthropic 黑客马拉松冠军基于 10 个月高强度实战沉淀而来。

六大核心组件：
48 个专业 Agents（架构师、安全审计员、测试工程师等）
183 个 Skills（覆盖全技术栈）
79 条快捷命令
15+ 事件 Hooks
12 种语言 Rules
6+ MCP 服务配置

核心价值：开箱即用，无需用户从零开始调教 Claude Code，一键安装就能获得社区沉淀的几乎所有高阶玩法。

功能矩阵详细对比

功能维度	Compound Engineering	Superpowers	Everything Claude Code
核心开发工作流	Brainstorm→Plan→Work→Review→Compound 全流程复利循环	全流程强约束，TDD、系统化调试、子代理开发	全场景研发工作流，从需求规划到部署上线全链路
Agent/技能库	50+ Agent（27代码评审、8研究等）、41+ Skill	14个内置技能，无独立子代理	48个垂直领域专业子代理、183个全场景 Skills
跨平台能力	行业独有单源多端，1键转10个平台原生格式	会话钩子自动检测环境，单命令完成安装	各平台专属适配层，Cursor深度兼容
语言/框架支持	通用开发流程，无分语言专属规则	通用软件工程规范，无分语言垂直适配	12+主流编程语言全量支持
流程约束能力	引导式开发，无强制门控	强约束硬门控，Red Flags 机制	规则层全流程约束，灵活度与约束性平衡

平台兼容性对比

维度	Compound Engineering	Superpowers	Everything Claude Code
原生主平台	Claude Code	Claude Code	Claude Code
全量支持平台	11个：OpenCode、Codex、Copilot、Gemini、Kiro、Windsurf、Droid、Pi、OpenClaw、Qwen 等	5个：GitHub Copilot CLI、Cursor、Gemini CLI、Codex CLI、OpenCode	3个：Cursor、OpenCode、Codex
跨平台同步	支持，一键同步到所有目标平台	无	无
平台适配方式	CLI格式转换，输出各平台原生配置	会话钩子自动检测，动态适配	各平台专属适配层

生态与资源对比

维度	Compound Engineering	Superpowers	Everything Claude Code
开源协议	开源	MIT	开源
社区规模	官方维护，无公开大规模社区数据	Discord 社区支持	140k+ Stars、21k+ Fork、170+ 贡献者
文档完善度	完整快速开始、安装指南、架构详解	完整多平台安装文档、架构文档	全量文档，多语言翻译，示例配置
迭代速度	稳定迭代，v2.65.0	稳定迭代，v5.0.7	高频迭代，v1.10.0（2026-04）+ ECC 2.0 Rust版

适用人群总结

工具	最佳适配人群
Compound Engineering	需要跨多个 AI 编码工具复用工作流的开发者；注重开发经验沉淀的团队；需要 AI 开发实践与编程教学兼顾的教育场景
Superpowers	对代码质量、规范性有强要求的开发者；想落地 TDD、避免 AI 跳步的团队；编程入门者；想要轻量零依赖工具的用户
Everything Claude Code	从入门到资深的全层级开发者；企业级开发团队；深度使用 AI 辅助开发的重度用户；需要参与开源贡献的开发者

最优协同方案

三者并非互斥，社区最成熟的组合玩法是：

┌─────────────────────────────────────────────────────────┐
│  顶层：Compound Engineering                              │
│  知识沉淀 - 把每次项目的经验教训沉淀为可复用资产         │
├─────────────────────────────────────────────────────────┤
│  中层：Superpowers                                       │
│  流程护栏 - 强制所有开发遵循标准化的工程流程              │
├─────────────────────────────────────────────────────────┤
│  底层：Everything-Claude-Code                           │
│  能力底座 - 一键补齐所有高阶功能，按需裁剪适配技术栈      │
└─────────────────────────────────────────────────────────┘

最终选型建议

需求	推荐选择
跨多个 AI 编码工具复用工作流，一次编写全平台部署	Compound Engineering
约束 AI 的编码行为，让它严格遵循 TDD 等软件工程规范	Superpowers
一站式、全场景、多语言的生产级 AI 开发体系	Everything Claude Code

参考链接：
Compound Engineering Plugin
Superpowers
Everything-Claude-Code

Compound Engineering 插件全解析：AI 工程复利化实践指南

2026-05-04T13:00:00.000Z

Compound Engineering 插件全解析：AI 工程复利化实践指南

Compound Engineering 是 Claude Code 生态中唯一以「知识复利沉淀」为核心定位的 AI 软件工程体系。它通过 AI 技能（Skills）和智能体（Agents）实现”复合工程”理念——让每一次工程工作都能降低后续工作的难度，而非积累技术债务。

核心理念

传统开发模式会随功能迭代积累复杂度和技术债务，而复合工程理念将 80% 的精力放在规划与评审、20% 放在执行，核心是通过”复利式”的工作闭环让每一次迭代都为后续工作提供价值：

复利式工作闭环：充分规划减少执行阶段的返工；严格评审不仅修复问题，还沉淀可复用的模式；知识固化让后续 AI 智能体无需重复踩坑。

仓库结构

compound-engineering-plugin/
├── .agents/                # 智能体相关配置
├── plugins/                # 插件核心目录
│   ├── coding-tutor/       # 编码辅导相关插件
│   └── compound-engineering/ # 复合工程核心插件
├── src/                    # 源代码目录
│   ├── commands/           # 命令实现
│   ├── converters/         # 格式转换工具
│   ├── parsers/            # 解析器
│   ├── release/            # 发布相关逻辑
│   ├── targets/            # 目标适配
│   ├── types/              # 类型定义
│   └── utils/              # 通用工具函数
├── tests/                  # 测试用例
├── docs/                   # 文档（含产品脉搏报告）
└── scripts/                # 脚本工具

核心命令一览

命令	用途
`/ce-strategy`	生成/维护 `STRATEGY.md`，定义产品核心目标、受众、指标
`/ce-ideate`	大方向构思：生成并评估创意，筛选最优方向
`/ce-brainstorm`	交互式问答梳理需求，生成适配的需求文档
`/ce-plan`	将需求转化为详细的实现计划
`/ce-work`	基于计划执行开发，含工作树和任务跟踪
`/ce-debug`	系统化复现问题、定位根因并实现修复
`/ce-code-review`	多智能体协同代码评审，降低合入风险
`/ce-compound`	沉淀学习成果，让后续工作更高效
`/ce-product-pulse`	生成产品脉搏报告，保存至 `docs/pulse-reports/`

典型工作流

功能开发闭环

.ce-brainstorm "优化后台任务重试机制的安全性"  # 梳理需求
.ce-plan docs/brainstorms/xxx-requirements.md  # 制定实现计划
.ce-work                                       # 执行开发
.ce-code-review                                # 代码评审
.ce-compound                                   # 沉淀经验

问题排查闭环

1
2
3

.ce-debug "支付回调偶发创建重复发票"  # 定位根因并修复
.ce-code-review                     # 评审修复代码
.ce-compound                        # 记录问题模式和解决方案

安装与使用

Claude Code

1 2	/plugin marketplace add EveryInc/compound-engineering-plugin /plugin install compound-engineering

Cursor

1	/add-plugin compound-engineering # 或在插件市场搜索安装

安装后执行 .ce-setup 完成环境检查、工具安装和项目配置初始化。

核心价值

复利式迭代：每一次工作闭环（规划→执行→评审→沉淀）都会让下一次迭代更高效
全流程覆盖：从战略规划、创意构思到开发、调试、评审、沉淀，覆盖工程全生命周期
数据驱动：通过 /ce-product-pulse 生成的脉搏报告，让后续规划基于真实用户数据
知识固化：沉淀的经验持续降低团队（及 AI 智能体）的认知成本

该仓库目前包含 37 个核心技能和 51 个智能体，是一套完整的 AI 辅助工程化解决方案。

优势与短板深度解析

核心优势

1. 独有的知识复利体系

通过 /compound「复合沉淀」、/learn「主动学习」、/recall「精准召回」三大核心命令，构建了完整的知识闭环：

彻底解决 AI 编程的两大顽疾：会话重启就失忆、长会话上下文漂移
真正实现「开发次数越多，AI 越懂你的项目，效率越高」的复利效应

2. 完整可追溯的工程闭环

CE 在 Superpowers「规划-执行-审查」的闭环基础上，新增了核心的「沉淀复合」环节，形成了 PDCA 式的完整工程循环，从源头遏制技术债累积。

3. 团队技术资产的标准化沉淀

将团队的编码规范、架构模式、业务最佳实践、安全红线、合规要求、踩坑避坑指南，全部沉淀为 AI 可自动遵循的规则。

4. 优秀的生态兼容性

原生深度适配 Claude Code
同时支持转换为 Cursor、GitHub Copilot、Gemini Code、Windsurf 等插件框架
可与 Superpowers、Everything-Claude-Code 无缝叠加使用

核心短板

短板	说明
社区生态成熟度不足	Stars 数量不足 Superpowers 的十分之一，配套资源稀少
上手门槛偏高	需要用户具备成熟的工程化思维，对新手不友好
轻量化场景性价比低	一次性小需求、快速原型开发场景，沉淀环节无收益
效果依赖沉淀质量	易出现「垃圾进垃圾出」，没有内置校验机制
跨项目复用受限	跨不同技术栈复用时易出现上下文污染
强依赖大模型能力	低配版本体验大打折扣，上下文窗口有限时效果差

适配场景总结

场景	适配度
长期维护的中大型项目	⭐⭐⭐⭐⭐
有标准化需求的企业研发团队	⭐⭐⭐⭐⭐
需要严格管控技术债的合规性项目	⭐⭐⭐⭐
需要沉淀技术资产的稳定研发团队	⭐⭐⭐⭐
一次性小需求、快速原型开发	⭐
无工程化基础的新手用户	⭐

参考链接：Compound Engineering 官方指南

Karpathy：从Vibe Coding到Agentic Engineering

2026-05-01T14:04:00.000Z

视频来源：AI Ascent 2026 - Andrej Karpathy & Stephanie Zhan
访谈时间：2026年
整理时间：2026-05-01

访谈背景

人物	身份
Andrej Karpathy	OpenAI联合创始人、特斯拉前AI负责人、Eureka Labs创始人
Stephanie Zhan	红杉资本合伙人
对话场景	AI Ascent 2026 峰会

Karpathy一年前提出的”vibe coding”概念，引发了行业对AI辅助编程的广泛讨论。一年后，他带来更深层的思考：agentic engineering 正在成为更严谨、更体系化的核心工程学科。

一、软件开发范式的代际跃迁

Karpathy清晰阐释了软件范式的演进轨迹：

范式	核心特征	底层逻辑
Software 1.0	人工硬编码规则	代码即逻辑，逻辑即规则
Software 2.0	基于数据训练的机器学习	代码即数据，数据即模型
Software 3.0	以LLM为底层计算平台	代码即提示，提示即程序

Agents是Software 3.0的”安装程序” —— 它是将LLM的底层通用能力，落地到具体场景、实现端到端任务闭环的核心载体。

二、从Vibe Coding到Agentic Engineering

Vibe Coding的局限

Vibe Coding（氛围编码）是基于LLM自然语言提示实现的直觉式、低门槛编码模式：

✅ 大幅降低开发准入门槛
✅ 实现单环节编码效率跃升
❌ 随机性高，不可复用
❌ 不可控，无边界约束
❌ 难以完成复杂任务闭环

Agentic Engineering的崛起

2026年，Agentic Engineering 在Vibe Coding基础上，成型为一套更严谨的工程学科：

Agentic Engineering = Vibe Coding的工业化、专业化升级

维度	Vibe Coding	Agentic Engineering
粒度	单次提示	可复用系统
控制	依赖直觉	可验证闭环
边界	模糊	刚性划定
目标	效率提升	任务全链路闭环

三、LLM的本质：不是动物，而是”幽灵”

Karpathy提出了极具标志性的判断：

我们不应将LLM视作拥有连续、稳定能力的动物，而应将其看作”锯齿状、统计性的、可被召唤的幽灵实体”。

锯齿状技能（Jagged Skills）

LLM的能力呈现极强的非连续性：

领域	LLM能力	人类能力
复杂推理	⭐⭐⭐⭐⭐	⭐⭐⭐
代码生成	⭐⭐⭐⭐⭐	⭐⭐⭐
基础算术	⭐⭐	⭐⭐⭐⭐⭐
常识推理	⭐⭐	⭐⭐⭐⭐⭐

核心启示

驾驭LLM不能依赖传统编程思维，而需要一套全新的：

审美判断力 - 知道什么是对的、好的
引导方法论 - 如何让LLM发挥最大价值
边界约束能力 - 明确LLM能做什么、不能做什么

四、可验证性：LLM落地的核心边界

Karpathy反复强调：

可验证性（Verifiability）是LLM与智能体落地的唯一核心边界。

为什么可验证性如此重要？

LLM只有在结果可被清晰验证的领域，才能最大化发挥价值、规避风险：

1 2	可验证领域 → LLM价值最大化不可验证领域 → 能力不可控性急剧放大

核心设计准则

必须构建可验证的任务闭环：

每个原子任务配套明确、可量化、可自动化校验的验收标准
执行完成后自动校验，不通过则触发智能体自主纠错
多次纠错失败直接抛出异常给人工处理

五、核心金句

你可以外包你的思考，但永远不能外包你的理解。

即便AI可以完成绝大多数执行、甚至推理思考环节，开发者与创始人必须守住对业务、系统、任务本质的底层理解——这是AI时代不可替代的核心壁垒。

六、行业趋势与开发者建议

2026年行业共识

自然语言驱动的软件范式已成为行业必然方向
“菜单式生成”（低代码/可视化AI开发）与原生提示词工程的边界正在快速融合
智能体将无处不在，开发者的学习路径必须彻底转型

给从业者的三条建议

建议	具体行动
拥抱不确定性	从”我会什么”转向”我能驾驭什么”
聚焦判断力	把精力从执行转向决策、验证、边界约束
建立闭环思维	每个AI应用都要设计验证标准和纠错机制

七、访谈时间轴

时间戳	主题
00:00	Introduction
00:44	Feeling Behind as a Coder
02:28	Software 3.0 Explained
03:44	Agents as the Installer
04:49	Menu Gen vs Raw Prompts
07:37	What’s Obvious by 2026
09:41	Verifiability and Jagged Skills
13:39	Founder Advice and Automation
15:46	From Vibe Coding to Agent Engineering
25:17	Agents Everywhere and Learning

独家对话罗福莉：AI范式已然巨变

2026-05-01T13:06:00.000Z

来源：张小珺访谈《独家对话罗福莉：AI范式已然巨变！》
视频：https://www.bilibili.com/video/BV1iVoVBgERD
整理时间：2026-05-01

访谈背景

访谈对象：罗福莉，小米大模型团队负责人，主导 MiMo-V2 系列模型研发，曾供职阿里达摩院、DeepSeek
核心节点：2026 年大模型行业迎来范式巨变，从 Pre-train（预训练）主导的 Chat 时代，全面转向 Post-train（后训练）主导的 Agent 时代
触发变量：Claude Opus 4.6、OpenClaw 等技术突破引发全行业技术逻辑重构

一、核心观点：范式已然巨变

2026年大模型竞争已进入“第二幕”，发生了根本性的范式转移：

维度	Chat时代（2023-2025）	Agent时代（2026起）
竞争焦点	预训练（Pre-train）主导	后训练（Post-train）主导
入场券	模型参数规模	1T参数的基座模型
核心能力	对话、文本生成	决策、工具调用、多步复杂任务

二、技术判断与行业洞察

1. OpenClaw的”觉醒”时刻

罗福莉将开源Agent框架 OpenClaw 视为”划时代的Agent框架”。她亲身体验后，认为其通过以下设计，能有效弥补模型的能力短板：

精细的上下文编排
持久记忆机制
多模型调度能力

这些设计 激发了中层模型的上限，让它们在许多场景下能达到接近顶尖模型的水平。

2. Code的关键泛化力

编程（Code）被认为是具有极强泛化能力的场景。原因在于代码数据天然具备：

长上下文 - 需要理解代码的前后依赖
强关联 - 函数调用、模块引用关系复杂

在此基础上的训练，能让模型更好地处理Agent所需的长程、复杂任务。

3. 后训练成为赛点

在新范式中，后训练（特别是强化学习RL的Scaling）变得与预训练同等甚至更加重要。

竞争的关键在于：能否在多样的Agent框架中，让模型端到端地稳定完成高复杂度任务。

4. 算力资源分配重构

算力（卡）的调配比例发生巨变：

时代	研究	预训练	后训练
Chat时代	3	5	1
Agent时代（合理）	3	1	1
顶尖团队	1	1	1

后训练的算力权重迎来爆发式提升，从预训练的辅助环节，升级为决定产品竞争力的核心研发主线。

5. 对多模态的再思考

罗福莉表示，在Agent可以优雅编排多个专业模型的范式下，**”多模态是否促进智能”本身已不关键**。

当前更重要的是：模型能否在Agent框架内有效”行动”，而多模态理解是行动的必要条件之一。

三、组织与文化：创新如何诞生

小米大模型团队的实践

团队约100人，但没有严格的职级和固定小组划分。罗福莉认为任何层级和规范都是对创造力的约束，平权有利于所有人平等贡献智慧。

核心管理理念

热爱驱动：通过让成员深度体验新技术（如强制使用OpenClaw）来激发内在热情
频繁碰撞：团队内沟通频繁、思想碰撞激烈
招人标准：更看重好奇心、热爱和潜力，而非已有的大模型经验

“环境比经验更重要” —— 良好的环境能让人快速习得所需技能。

对模糊性的容忍

Agent范式下的后训练和RL基础设施工作，需要比预训练时代更高的敏捷性和对模糊性的容忍度。团队必须具备快速开发、适配新系统的能力。

四、个人洞见与未来展望

AI训练AI即将到来

罗福莉预见，AI将能先吸收人类智能，再通过自我迭代产生更强智能，实现”左脚踩右脚”式的提升。

这可能在 一两年内 发生。

AGI路线图

她预测，按照当前路径，AGI可能在两年内实现：

第一阶段：首先颠覆工作模式
第二阶段：随着机器人等硬件进步，改变生活模式

开源的意义

她坚信 开源是加速AGI进程的关键，有利于促进Agent框架、芯片、能源等整个生态的繁荣。

中美竞争态势

她判断，国内拥有1T基座模型的团队，与国外顶尖模型（如Claude Opus 4.6）的代差可能只有两三个月。

接下来两三个月团队的应变和进化速度将至关重要。

五、行业深度解读

1. 范式转移的本质

维度	Chat时代	Agent时代
核心矛盾	基础模型通用能力不足	如何把模型能力转化为Agent生产力
资源倾斜	所有资源向基座能力倾斜	释放模型能力、实现规模化落地
技术重心	预训练是绝对核心	后训练（强化学习）成为核心引擎

2. Anthropic路径成为共识

Anthropic的核心路径——通过RLHF/RLAIF等强化学习技术实现模型能力提升——恰恰命中了Agent时代的核心需求：

模型可控性
对齐性
复杂推理能力
工具调用能力

3. 行业决胜窗口期

大模型行业的迭代周期已从 **”年”压缩至”月”**。

未来2-3个月，谁能最快落地新范式，谁就能在新赛道抢到先发优势。

4. 长期Scaling的核心焦虑

“不会在1T水平上走太久”的判断，本质是行业对Scaling Law的深度反思。

下一阶段的竞争，核心是找到Scaling的第二曲线：

继续堆参数量？
Scaling数据质量？
强化学习迭代轮次？
多模态融合能力？
Agent闭环能力？

访谈完整大纲

时间戳	主题
00:01:31	OpenClaw引发的行业巨变
00:23:32	群体智能对Agent框架的提升
00:40:46	2026作为生产力变革之年的核心逻辑
01:01:00	Agent的自进化与自迭代能力
01:18:54	MiMo-V2的技术布局：觉醒和伏击
01:44:39	1T模型仅为行业入场券的深层判断
01:51:48	大模型研发团队的组织平权
02:02:11	大模型训练的核心细节与成本拆解
02:08:18	大模型另类架构的探索与可能性
02:21:47	AI发展与人类生存危机的核心探讨
02:38:27	技术迭代下「每天否认昨天的自己」的研发常态
02:47:49	过去3年AI行业的完整进化史复盘
03:05:09	当下行业共识与头部竞争格局
03:19:00	技术成长中「环境比经验更重要」的核心观点

实践案例大全

2026-05-01T05:30:00.000Z

实践案例大全

来源：WorkBuddy 官方文档
整理时间：2026-05-01

实践一：文件内容识别与处理
实践二：文档生成与编辑
实践三：数据分析并可视化
实践四：自媒体运营
实践五：每日自动推送资讯简报
实践六：远程遥控 WorkBuddy
实践七：零代码制作本地应用
实践八：自我进化——创建自己的 Skills
实践九：AI 自驱动
实践十：一句话管理你的所有会议
实践十一：一句话管理你的腾讯文档

实践一：文件内容识别与处理

文档说明

本文介绍如何使用 WorkBuddy 处理文档识别、会议纪要整理与外文视频翻译等任务，适用于需要快速提取内容、重组信息与生成结果文件的场景。

一句话批量命名文件

项目	内容
适用场景	目录中存在大量命名混乱的图片、合同、票据或资料文件。
目标效果	根据文件内容或时间信息，自动生成统一、可检索的文件名。

示例指令：

请读取这个文件夹中的文件内容或文件属性，按「日期 + 主题 + 类型」的规则批量重命名，并先展示重命名预览结果。

整理会议纪要

项目	内容
适用场景	会议录音、聊天记录或零散笔记需要整理为正式纪要。
目标效果	提炼议题、结论、待办事项与责任人。

示例指令：

请根据我提供的会议记录，整理成一份正式会议纪要，包含会议主题、关键结论、行动项、负责人和截止时间。

外文视频翻译

项目	内容
适用场景	课程视频、访谈内容、产品演示或培训视频需要翻译与摘要。
目标效果	提取字幕内容，翻译为中文，并输出重点摘要。

示例指令：

请帮我提取这个外文视频的字幕内容，翻译成中文，并整理成一份便于阅读的摘要文档，重点标出关键观点和专业术语。

使用建议

明确输出格式：可提前说明需要 Markdown、Word、表格或纯文本。
补充约束条件：例如命名规则、纪要结构、翻译风格与术语保留方式。
优先处理小批量样本：先验证一次结果，再扩大到全量文件。

实践二：文档生成与编辑

文档说明

本文介绍如何通过 WorkBuddy 生成和修改 Word 文档与 PPT，适用于方案撰写、汇报材料制作、已有内容优化等场景。

一句话生成 Word 文档

操作说明

适用场景：快速生成通知、方案、申请、制度、汇报等正式文档。
推荐做法：直接描述文档目标、对象、语气和结构要求。

示例指令

请帮我生成一份正式的项目立项申请，包含背景、目标、预算、实施计划和风险说明，整体语气正式，适合提交给管理层审批。

二次修改方式

文档生成后，无需手动打开文件逐项修改，可直接继续对 WorkBuddy 说明调整意见，例如：

预算清单需要更详细。
请为每个流程环节补充一条注意事项。
整体语气再正式一些，适合给老板审批。

WorkBuddy 会在原有内容基础上继续修改，无需重新编写整段提示词。

根据素材和模板制作 PPT

操作说明

适用场景：已有文本素材、汇报大纲或参考模板，需要快速生成演示文稿。
推荐做法：同时提供素材、页数要求、受众对象和风格偏好。

示例指令

请根据我提供的项目总结材料，制作一份 10 页以内的汇报 PPT，风格简洁专业，适合业务评审场景，并突出成果、数据和下一步计划。

辅助方式

还可以调用文档生成相关的 Skill，提升生成效率与版式质量。

使用建议

先说清目标读者：不同读者决定文档语气与内容深度。
一次说明清楚结构：例如页数、章节、必须包含的模块。
修改时直接说差异：与其重写，不如明确指出哪里需要补充、删减或调整风格。

实践三：数据分析并可视化

文档说明

本文介绍如何使用 WorkBuddy 完成表格可视化、数据搜集与报告生成，适用于经营分析、项目汇报、市场调研与业务复盘等场景。

将 Excel 表格转为可视化图表

导入数据文件

当你已经拥有 Excel、CSV 等数据文件时，可直接将文件拖入对话，或明确告诉 WorkBuddy 文件所在路径。

描述分析需求

建议一次说明以下信息：

需要分析的指标
想看的图表类型
统计维度或时间范围
是否需要输出报告

示例指令：

请读取这份销售数据，按月份统计各产品线的销售额和利润，分别生成柱状图与折线图，并补充一段结论说明。

预览结果

WorkBuddy 会根据你的要求读取数据、完成统计并生成图表。

搜集数据并生成可视化报告

描述数据需求

当数据尚未整理成文件，或需要从网络、多个来源搜集信息时，可直接描述数据主题、范围和来源偏好。

示例指令：

请帮我搜集近 1 年国内 AI 办公工具相关的市场信息，重点关注用户规模、应用场景和代表产品，并整理成结构化数据。

描述报告要求

建议同时说明报告格式、章节结构、图表偏好与汇报对象。

示例指令：

请基于搜集到的数据生成一份可视化分析报告，包含核心结论、关键数据图表、趋势判断和行动建议，适合管理层阅读。

输出结果

WorkBuddy 会完成数据搜集、分析、绘图与报告排版，输出完整结果文件。

使用建议

先明确分析问题：先说清要回答什么业务问题，再决定图表形式。
避免一次提过多要求：建议先产出基础版本，再逐轮补充图表与结论。
说明数据可信度要求：如需公开来源、出处链接或时间范围，建议提前写明。

实践四：自媒体运营

文档说明

本文介绍如何借助 WorkBuddy 完成自媒体内容策划、文案撰写与视频素材整理，适用于小红书、短视频等内容生产场景。

小红书内容生成

适用场景：需要快速产出标题、正文、封面文案或选题方向。
推荐做法：一次说明账号定位、受众人群、语气风格与内容目标。

示例指令：

请根据我提供的产品卖点，帮我写 3 个适合小红书发布的选题，并为其中 1 个选题生成标题、正文、话题标签和封面文案，语气自然、真实、适合种草场景。

视频内容生成

适用场景：需要将脚本、口播文案、镜头分镜或视频说明快速整理出来。
推荐做法：说明视频时长、平台类型、目标受众与输出形式。

示例指令：

请帮我生成一份 60 秒短视频脚本，包含开头钩子、口播文案、镜头建议和结尾行动引导，整体节奏适合信息密度较高的内容账号。

使用建议

先定平台，再写内容：不同平台的内容结构和节奏差异较大。
明确人群与风格：能显著提升文案贴合度。
先出初稿，再做微调：标题、封面、标签和正文建议分轮优化。

实践五：每日自动推送资讯简报

文档说明

本文介绍如何使用 WorkBuddy 配置资讯简报的发送能力，并创建每日自动推送任务。适用于希望固定时间接收天气、新闻、行业动态与个人待办摘要的场景。

连接 QQ 邮箱

在发送邮件之前，需要先通过连接器将 QQ 邮箱与 WorkBuddy 对接。

请参考连接器指南 - 连接 QQ 邮箱完成配置。

手动触发第一条简报

建议先手动执行一次，确认消息内容、发送流程与邮箱接收是否正常。

示例指令：

请生成今天的资讯简报，包含本地天气、AI 行业动态、重点新闻和我的任务摘要，并发送到我的 QQ 邮箱。

执行过程中，WorkBuddy 通常会完成搜索、整理、生成和发送等步骤，整体耗时约 2 到 3 分钟。

设置每日定时发送

手动跑通后，可继续创建自动化任务，让简报按固定时间自动发送。

示例指令：

请创建一个自动化任务，每天早上 8 点为我生成资讯简报并发送到 QQ 邮箱，内容包括天气、行业资讯和任务摘要。

创建成功后，可在左侧边栏的自动化目录中统一管理所有定时任务。

个性化调整

简报内容可以通过自然语言持续调整，常见方向包括：

新增数据源：增加微博、知乎等平台的热榜内容。
调整资讯范围：仅保留 A 股、财经或 AI 新闻。
调整写作风格：改为更正式、轻松或摘要式的表达。
限制发送日期：只在工作日执行，法定节假日不发送。

示例指令：

请把简报改成只发送工作日版本，保留财经资讯和 AI 新闻，并将整体语气调整为简洁专业。

使用建议

先验证发送链路：务必先手动发送成功，再开启自动化。
控制内容长度：简报内容越聚焦，越适合长期阅读。
逐步细化规则：建议先跑通基础版本，再补充节假日、频道来源等个性化要求。

实践六：远程遥控 WorkBuddy

文档说明

本文介绍如何通过移动端与远程对话能力，让 WorkBuddy 在不坐在电脑前的情况下继续协助处理任务，适用于通勤、出差和跨设备办公场景。

手机远程完成电脑文件跨端传输

适用场景：临时需要把电脑中的 PPT、文档或资料发送到手机或其他设备。
推荐做法：在移动端明确说明文件名称、所在目录与目标动作。

示例指令：

请帮我查找电脑里名为「项目汇报」的 PPT 文件，确认版本后整理到一个便于发送的目录，并告诉我下一步如何完成跨端传输。

通勤时用手机继续远程对话编程

适用场景：不在工位时，希望继续推进调试、修复或文档整理任务。
推荐做法：用自然语言描述当前问题、预期目标和可接受的处理范围。

示例指令：

我现在不在电脑前，请继续排查这个项目的报错问题，优先查看最近一次运行日志，并先告诉我原因和处理建议，再决定是否修改代码。

使用建议

先给清晰目标：远程场景下应避免模糊指令。
减少高风险操作：涉及删除、覆盖、批量移动时，建议先要求预览。
保留关键文件名：跨端操作时，明确文件名和目录能显著提升成功率。

实践七：零代码制作本地应用

文档说明

本文介绍如何通过 WorkBuddy 以自然语言方式设计、生成、调试并持续升级本地应用，适用于无代码基础或希望快速验证想法的用户。

让 AI 帮你设计应用

操作说明

为了让 AI 更好地完成应用开发工作，建议在代码开发模式中开启新的对话。

示例指令

请帮我设计一个本地可运行的知识管理小工具，支持新增、搜索、编辑和分类，界面简洁，适合个人日常记录使用，并直接生成可运行的代码。

预期结果

WorkBuddy 会理解需求，自动生成完整代码并尝试运行。

让 AI 帮你解决报错

操作说明

项目运行过程中出现异常时，只需在对话中描述观察到的现象，WorkBuddy 会继续基于当前上下文进行排查。

示例指令

点击保存按钮后页面白屏，控制台提示 TypeError，请帮我定位原因并修复。

提升修复效率的建议

描述具体现象：例如按钮名称、报错位置、触发步骤。
支持多轮排查：首次修复未完全解决时，可继续补充最新现象。
善用截图：报错界面、控制台信息和日志截图都能帮助定位问题。

让 AI 帮你持续升级系统

WorkBuddy 不仅可以生成初版应用，还可以在后续使用中持续扩展系统能力。

常见升级场景

需求描述	AI 可能执行的动作
希望支持模糊搜索，不依赖精确关键词	接入本地向量或语义检索能力
每天早上自动推送待处理任务	配置自动化任务并汇总待办
通过 QQ 或微信随时录入内容	对接消息平台并增加移动端输入通道
新增内容时自动关联已有记录	增加关联分析与知识整理能力

使用建议

先做最小可用版本：先完成核心功能，再逐步增加复杂能力。
问题描述尽量具体：越具体，AI 越容易快速修复。
把升级需求拆开提：一次只增加一类能力，更利于稳定迭代。

实践八：自我进化——创建自己的 Skills

文档说明

本文介绍如何借助 WorkBuddy 创建自定义 Skill，将重复出现的个人工作习惯、知识处理方式和任务逻辑沉淀为可复用能力。

适用场景

希望把固定流程沉淀为长期可复用的能力。
希望让 AI 在任意对话中自动识别某类意图并执行对应动作。
希望将个人笔记、灵感收集、知识整理流程产品化。

案例说明

基于前文提到的笔记应用场景，可以通过自定义 Skill 让系统自动识别用户的记录意图，并完成整理与保存，而不仅仅是普通的文本记录。

创建方式

在对话框中直接说明你想要的能力、触发方式和输出结果。

示例指令：

请帮我创建一个用于记录灵感的自定义 Skill。当我输入灵感、想法或待验证创意时，自动识别内容类型，整理成结构化记录，并保存到指定目录。

执行完成后，打开技能栏，在已安装目录下即可查看新创建的 Skill。

使用效果

创建完成后，可在任意对话中直接使用自然语言触发该能力。

示例指令：

记一条灵感：做一个能自动整理会议纪要并同步到知识库的工具。

WorkBuddy 一般会自动完成以下动作：

识别这是一条灵感类内容。
将内容整理为结构化记录。
保存到指定位置，并反馈记录结果。

使用建议

先定义单一能力：首个自定义 Skill 建议只解决一个明确问题。
把触发条件说清楚：例如何时触发、写入哪里、输出什么结果。
从高频动作开始：越高频的重复操作，越值得沉淀成 Skill。

实践九：AI 自驱动

文档说明

本文介绍 WorkBuddy 的 AI 自驱动使用方式，即让系统在明确目标后自主拆解任务、执行步骤、检查结果并持续推进，适用于需要减少人工介入的复杂任务场景。

适用场景

需要从目标出发，自动拆分多个执行步骤。
需要连续完成搜索、整理、生成、校验等一整套流程。
需要在较少人工干预的情况下推进任务。

使用建议

目标越清楚，自驱效果越好：请尽量说明完成标准。
复杂任务先给边界：例如时间范围、数据来源、文件格式。
涉及高风险操作时先预览：删除、覆盖、迁移类动作建议先确认方案。

实践十：一句话管理你的所有会议

文档说明

本文介绍如何在 WorkBuddy 中安装并使用腾讯会议 Skill，通过自然语言直接完成会议预约、修改、取消、查询，以及录制、转写和 AI 纪要整理等操作，适用于需要频繁开会、又不希望在多个应用之间来回切换的场景。

适用场景

正在编码、写文档或处理任务时，临时需要快速发起会议。
希望直接在 WorkBuddy 中完成会议的预约、修改与取消。
需要查看参会成员、会议录制、转写内容与智能纪要。
希望减少在编辑器、会议软件与笔记工具之间的反复切换。

获取并安装腾讯会议 Skill

获取个人 Token

首先打开腾讯会议 Skill 官方页面：快速跳转点我，并使用腾讯会议账号完成登录。

在授权页面中，可直接获取并复制个人专属 Token。登录后，参考页面中的「WorkBuddy 原生接入流程」，按步骤完成授权与配置。

注意事项：Token 属于个人凭证，请妥善保管。
补充说明：如 Token 失效，可重新访问授权页面获取新凭证。

在 WorkBuddy 中发起安装

完成上一步骤后，复制上图中第 1 步的命令，回到 WorkBuddy 对话窗口，直接粘贴安装指令，即可让 WorkBuddy 自动完成腾讯会议 Skill 的安装。

安装过程中，WorkBuddy 会自动创建任务，并完成下载、解析和配置等步骤。安装完成后，可在已安装技能列表中看到腾讯会议 Skill。

常见使用场景

会议管理

可直接用自然语言完成预约、修改、取消和查询。

示例指令：

帮我创建一个腾讯会议，主题是技术方案讨论，今天下午 3 点到 4 点。

安排一个周期性会议，每周一上午 10 点，主题是团队周会。

把会议 450-743-140 的时间改到下午 4 点。

取消会议号 450-743-140 的会议。

查一下我今天有哪些会议。

成员管理

当需要确认谁参加了会议、谁被邀请或谁正在等候室时，也可以直接在对话中查询。

示例指令：

会议 450-743-140 有哪些人参加了？

这个会议邀请了哪些人？

等候室里现在有谁？

录制、转写与智能纪要

会议结束后，可继续查询录制、查看转写，或直接获取 AI 生成的会议纪要。

示例指令：

帮我查一下最近的会议录制。

获取上次会议的录制下载链接。

帮我看看上次会议的转写内容。

在会议转写里搜索「技术方案」。

帮我获取这个会议的智能纪要。

使用建议

注意 Token 时效：如安装或调用失败，可优先检查 Token 是否已过期。
时间可直接自然表达：例如「今天下午 3 点到 4 点」「明早 9 点半」，通常无需手动换算格式。
密码建议提前说明：若会议需要自定义密码，创建时可一并提出，常见密码规则为 4 到 6 位数字。
会议号与周期规则要说清楚：查询、修改或取消时建议明确会议号；创建周期会议时建议说明是每天、工作日、每周、每两周还是每月。
重要操作先核对信息：涉及修改与取消时，建议先查看当前会议信息再执行。

实践十一：一句话管理你的腾讯文档

文档说明

本文介绍如何在 WorkBuddy 中接入并使用腾讯文档相关能力，通过自然语言直接完成文档创建、内容整理、表格处理、多人协作汇总、权限查询与会议纪要沉淀等操作，适用于需要频繁处理在线文档、表格和收集表的办公场景。

适用场景

正在写方案、整理材料或推进项目时，需要快速创建腾讯文档。
希望直接在 WorkBuddy 中完成文档内容整理、改写、汇总与提炼。
需要处理腾讯文档中的表格数据、任务清单或收集表结果。
希望减少在编辑器、腾讯文档与聊天工具之间来回切换。

获取并安装腾讯文档相关能力

准备腾讯文档访问权限

首先打开腾讯文档 Skill 官方页面：快速跳转点我，并使用腾讯文档账号完成登录。

在授权页面中，可直接获取并复制个人专属 Token。登录后，参考页面中的「接入流程」，按步骤完成授权与配置。

注意事项：Token 属于个人凭证，请妥善保管。
补充说明：如 Token 失效，可重新访问授权页面获取新凭证。

在 WorkBuddy 中发起安装

完成上一步骤后，复制上图中第 1 步的命令，回到 WorkBuddy 对话窗口，直接粘贴安装指令，即可让 WorkBuddy 自动完成腾讯文档 Skill 的安装。

安装过程中，WorkBuddy 会自动创建任务，并完成下载、解析和配置等步骤。安装完成后，可在已安装技能列表中看到腾讯文档 Skill。

安装完成后的效果

安装成功后，即可在 WorkBuddy 中通过自然语言管理腾讯文档相关流程，无需手动切换多个页面或记忆复杂参数。

可支持的方向通常包括：

创建腾讯文档、在线表格、收集表等内容载体。
修改文档标题、正文结构、表格字段与内容格式。
汇总多人评论、提炼重点结论与行动项。
查询文档权限、协作者信息和最近更新时间。
将会议纪要、项目进展、数据记录沉淀到腾讯文档中。

常见使用场景

文档创建与整理

可直接用自然语言完成新建文档、补充内容、改写结构和整理格式。

示例指令：

帮我创建一份腾讯文档，标题是「项目复盘」，并先生成一个包含背景、问题、结论和行动项的结构。

帮我把这段内容整理成适合发给老板看的腾讯文档版本，语气简洁一些。

在腾讯文档里新建一份周报模板，包含本周进展、风险、下周计划三个部分。

表格与收集表管理

当需要记录数据、统计反馈或收集信息时，也可以直接在对话中完成。

示例指令：

帮我新建一个腾讯文档在线表格，用来记录招聘进度，字段包含候选人、岗位、面试轮次、状态和备注。

帮我把这份表格按状态分类整理，并标出本周需要重点跟进的项目。

新建一个腾讯文档收集表，用来收集团队培训报名信息，包含姓名、部门、联系方式和参与场次。

协作内容汇总与纪要沉淀

多人协作后，可继续汇总评论、提取结论，或把会议内容沉淀为结构化文档。

示例指令：

帮我汇总这份腾讯文档里的评论，按「问题、建议、待确认事项」分类整理。

把刚才的会议内容整理成腾讯文档纪要，并补充行动项和负责人栏位。

帮我从这份项目文档中提炼出适合周会汇报的 5 条重点。

查询与权限协作

当需要确认文档归属、协作者范围或最近变更情况时，也可以直接让 WorkBuddy 帮忙查询。

示例指令：

帮我看一下这份腾讯文档最近是谁修改过。

这份文档目前有哪些协作者？谁有编辑权限？

帮我查一下「Q2 经营分析」这份腾讯文档是否已经共享给项目组。

使用建议

先确认文档权限：如读取失败、无法编辑或无法共享，可优先检查当前账号权限。
复杂整理可先出提纲：对于长文档，建议先让 WorkBuddy 输出结构方案，再继续扩写或改写。
表格处理先明确口径：涉及统计、筛选、分类时，建议说明字段含义与筛选规则。
多人协作注意版本信息：如果文档频繁更新，建议先确认最近修改内容，再做汇总或重写。
沉淀纪要时补充输出要求：例如是否需要待办、负责人、截止时间、风险项等字段。

总结

本文汇总了 WorkBuddy 的 11 个实战案例，涵盖：

类别	场景
内容处理	文件识别、会议纪要、视频翻译
文档生成	Word 文档、PPT 制作
数据分析	图表可视化、报告生成
运营支持	小红书文案、短视频脚本
自动化	每日简报、定时推送
远程协作	跨设备操控、远程编程
应用开发	零代码应用、报错修复
技能定制	自定义 Skills
AI 自驱动	自主拆解与执行
办公集成	腾讯会议、腾讯文档

更多内容请参考 WorkBuddy 官方文档。

WorkBuddy 全指南：腾讯全场景 AI 智能体工作台完全解析

2026-04-30T16:30:00.000Z

WorkBuddy 全指南

本文档系统介绍 WorkBuddy 的核心概念、功能特性、工作流程和使用建议。

1. WorkBuddy 是什么？

WorkBuddy 是腾讯推出的全场景职场 AI 智能体桌面工作台，面向各类职能角色设计。它的定位是让 AI 真正成为可以干活的数字同事——用自然语言下达任务，WorkBuddy 会自主规划步骤、执行操作、交付结果。

与传统 AI 的核心差异

对比维度	传统 AI	WorkBuddy
能力边界	聊天、给建议	实际执行任务
文件操作	手动操作	自动读写本地文件
任务复杂度	单一步骤	多步骤复杂任务
输出形式	文字回复	交付可验收的产物

WorkBuddy 填补了”AI 建议”到”AI 执行”之间的鸿沟。

2. 解决什么问题？

WorkBuddy 核心解决的是从”AI 建议”到”AI 执行”的最后一公里：

场景	说明
📄 文档处理	生成报告、邮件、周报、纪要，无需手动排版
📊 数据分析	上传数据文件，自动分析并可视化
📊 PPT / 报告生成	从需求描述直接产出可演示的文档
🔍 深度调研	对复杂问题进行系统性研究，输出完整报告
🗂️ 批量文件操作	自动整理、重命名、格式转换

一句话：你能用电脑做的事，WorkBuddy 都能帮你做。

3. 快速上手

快速上手五步法

Step 1 → 打开 WorkBuddy，进入主界面
Step 2 → 创建任务（输入任务描述，选择工作模式）
Step 3 → 等待执行，查看右侧结果区的产物
Step 4 → 在对话区追问或补充上下文
Step 5 → 验收结果，下载或直接使用

三种工作模式

模式	英文	适用场景
执行模式	Craft	明确知道要做什么，直接干活
规划模式	Plan	复杂任务，先设计路线图再行动
对话模式	Ask	纯问答，不修改任何文件

官方推荐的阅读顺序

1. 快速开始 → 了解如何进入 WorkBuddy、发起第一个任务、界面基本结构
2. 创建任务 → 了解如何选择工作模式、填写任务内容和补充上下文
3. 任务管理 → 了解如何查看任务列表、按状态筛选、继续处理已有任务
4. 任务对话 → 了解如何在对话区持续追问、上传文件、使用顶部操作
5. 结果查看 → 了解如何在右侧结果区查看产物、全部文件、变更和预览

4. 工作流程

完整工作流程

用户下达任务
    ↓
WorkBuddy 分析任务意图与当前上下文
    ↓
选择工作模式
    ├── Craft（执行模式）→ 直接执行，产出结果
    ├── Plan（规划模式） → 设计方案，用户确认后再执行
    └── Ask（对话模式） → 仅回答，不操作文件
    ↓
交付产物（文档 / 表格 / 代码 / 图表 / 视频等）
    ↓
用户验收，可追问或补充

Agent Loop（执行循环）

WorkBuddy 在执行模式下的内部循环：

1. 分析上下文 — 理解用户意图和当前状态
2. 思考 — 推理是否需要调整计划、推进阶段或采取行动
3. 选择工具 — 根据计划选取下一个要执行的工具
4. 执行操作 — 工具在沙盒环境中执行
5. 接收观察 — 操作结果作为新观察附加到上下文中
6. 迭代循环 — 重复以上步骤直至任务完成
7. 呈现结果 — 通过消息和预览工具向用户交付结果

5. 目录结构

WorkBuddy 在本地有两个层级的核心目录：

用户级配置（`~/.workbuddy/`）

全局生效，适用于所有项目。

~/.workbuddy/
├── SOUL.md            # AI 的灵魂定义（行为准则、价值观）
├── IDENTITY.md        # AI 的身份档案（名字、风格、emoji）
├── USER.md            # 用户档案（用户信息、偏好）
├── BOOTSTRAP.md       # 初始化脚本（首次运行时填充上述三个文件，完成后删除）
├── skills/            # 用户级技能库（所有项目通用）
├── mcp.json           # MCP 服务器配置
└── workbuddy.db       # 自动化任务数据库（SQLite）

工作台区（每个项目独立）

{工作区}/
├── .workbuddy/
│   ├── memory/
│   │   ├── YYYY-MM-DD.md     # 每日日志（追加写入）
│   │   └── MEMORY.md         # 长期记忆（持续更新）
│   └── skills/              # 项目级技能库（仅本项目生效）
└── [项目文件...]

记忆文件详解

文件	位置	性质	内容类型
`SOUL.md`	用户级	持久化	AI 行为准则、价值观、边界
`IDENTITY.md`	用户级	持久化	AI 名字、风格、Emoji
`USER.md`	用户级	持久化	用户背景、偏好、项目上下文
`YYYY-MM-DD.md`	工作区级	追加写入	当天工作记录、决策、重要结果
`MEMORY.md`	工作区级	持续更新	提炼后的长期知识、偏好、约定

6. 记忆系统

这是 WorkBuddy 最核心的设计之一——记忆外化为文件系统。

三层记忆架构

1
2
3

第1层 · 长期记忆 ──→ MEMORY.md       持久化，提炼精华，跨会话复用
第2层 · 每日日志 ──→ YYYY-MM-DD.md   追加写入，30天后提炼进 MEMORY.md
第3层 · 身份档案 ──→ SOUL/IDENTITY/USER.md  稳定不变，除非主动修改

记忆工作流

新会话开始
    ↓ 读取 MEMORY.md + 今日/昨日日志
恢复上下文
    ↓
执行任务
    ↓ 完成实质性工作后立即写入
写入今日日志（+ 必要时更新 MEMORY.md）
    ↓
会话结束

什么会被记忆？

会写入记忆的内容（有持久价值的）：

✅ 构建 / 修改了某个应用或功能
✅ 修复了 Bug
✅ 选择了某个技术方案（框架、设计模式）
✅ 用户告知的项目约定或个人偏好
✅ 重要决策与背景

不会写入记忆的内容（临时性的）：

❌ 中间搜索结果
❌ 临时文件路径
❌ 工具调用错误
❌ 纯闲聊 / 简单问答

记忆维护规则

每日文件超过 30 天 → 提炼进 MEMORY.md，原文件删除
MEMORY.md 保持精炼 → 遇到冲突时原地更新并注明日期
手动可控 → 可直接打开 .workbuddy/memory/ 文件夹查看、编辑或删除 AI 的记忆

7. 安全边界

操作风险分级

WorkBuddy 将文件操作按风险程度分为三个级别：

级别	区域	操作限制
🔴 高风险	Desktop、Downloads、Documents、Home	扫描只读，操作需逐项确认
🟡 中风险	项目目录	可执行，但批量操作有保护
🟢 低风险	`.workbuddy` 配置目录	受保护，不受误删影响

安全操作规则

规则	说明
强制警告	对个人目录的破坏性操作必须显示警告并要求确认
逐项确认	删除 / 重命名操作列出所有受影响文件路径
先备份再操作	对个人目录的移动 / 删除必须先创建备份
使用回收站	优先使用系统回收站，而非直接删除
小批量操作	每次最多 10 个文件，验证后再继续
禁止危险路径	`C:\`、`/System`、`AppData`、`/Library` 等系统目录禁止递归删除

外部操作原则

内部操作（读文件、整理、分析） → 大胆执行
外部行动（发邮件、发消息、发社交媒体） → 先问再做，不确定时谨慎处理
私密信息 → 绝对保密，不对外泄露

8. 学习资料

资料	地址
📖 官方文档首页	https://www.codebuddy.cn/docs/workbuddy/Overview
⚡ 快速开始	https://www.codebuddy.cn/docs/workbuddy/QuickStart
🛠️ 技能市场	内置 100+ 领域专家，从左侧”专家”入口进入
🔌 MCP 连接器	支持腾讯文档、微云、腾讯会议、腾讯乐享、QQ邮箱、TAPD 等
🤖 专家中心	可与各领域专家对话，获取专业帮助

快速上手建议

你现在处于初始化阶段——BOOTSTRAP.md 还存在，身份档案（IDENTITY / USER）都是空的。建议按以下顺序上手：

走一遍初始化 — 把 AI 的名字、风格、你的背景填进去，建立稳定的身份档案
发一个实际任务 — 感受三种工作模式（Craft / Plan / Ask）的差异
观察记忆文件 — 查看 .workbuddy/memory/ 里写了什么，理解记忆是如何工作的

本文档由 WorkBuddy AI 整理，供用户参考。

OpenClaw vs Hermes Agent 深度对比分析报告

2026-04-23T01:00:00.000Z

OpenClaw 与 Hermes Agent 是 2026 年开源 AI 智能体领域的两大标杆项目，均采用 MIT 开源协议，支持本地自托管、多模型接入、多消息通道适配与工具自动化能力。本报告从七大维度深度拆解对比，给出分场景选型建议。

一、核心定位

1.1 定位对比

项目	核心定位	设计哲学	Slogan
OpenClaw	完全运行在自有硬件上的开源个人 AI 助手，单用户、始终在线的自托管 AI 网关	本地优先、多通道统一、插件可扩展，做用户的「私有 AI 操作员」	Your own private AI operator, always on, always yours
Hermes Agent	Nous Research 打造的自进化 AI 智能体，具备闭环学习循环的模型无关代理运行时	从每一次交互中学习沉淀、自主优化，做用户的「持久化 AI 成长伙伴」	The agent that grows with you

1.2 设计理念核心差异

能力锚点不同：OpenClaw 以「接入与控制」为核心；Hermes 以「学习与进化」为核心
会话范式不同：OpenClaw 以通道为中心，会话独立隔离；Hermes 以用户为中心，跨会话共享记忆
用户目标不同：OpenClaw 面向「随时可用」，主打 7×24 小时在线；Hermes 面向「长期搭档」，主打越用越懂你

二、架构设计

2.1 OpenClaw：Hub-and-Spoke 中心辐射型

OpenClaw 采用中心辐射型架构，核心是 Gateway 网关（WebSocket 控制平面），所有消息、AI 调用、客户端连接、工具执行全量通过单一进程流转。

核心中枢层（src/）：网关、代理运行时、通道抽象、配置管理、会话生命周期、上下文引擎
扩展插件层（extensions/）：100+ 独立插件，覆盖模型提供商、消息通道、工具能力
终端适配层（apps/）：macOS / iOS / Android 原生客户端，与网关 WebSocket 配对
能力封装层（skills/）：50+ 预制模块化技能，通过 ClawHub 分发

单进程 · 单配置 · 单 WebSocket 端点 · 默认绑定本地回环 · 数据默认本地留存

2.2 Hermes Agent：分层解耦代理循环架构

Hermes Agent 采用分层解耦架构，核心是 AIAgent 类的同步会话循环，CLI、网关、TUI、定时任务均为表现层，仅负责输入输出转发。

核心代理层（agent/）：提示词构建、上下文压缩、内存管理、智能模型路由、技能管理，30+ 模块
工具执行层（tools/）：60+ 工具实现，支持 6 种执行后端（本地、Docker、SSH、Modal、Daytona、Singularity）
接入表现层：CLI、TUI、网关、VS Code 扩展，所有入口复用同一核心代理逻辑
记忆存储层：SQLite + FTS5 本地数据库，全会话全文检索、跨会话记忆召回
网关适配层（gateway/）：15+ 消息平台适配器

核心逻辑强内聚 · 平台无关 · 自学习闭环原生实现 · 并行子代理调度

2.3 架构对比小结

对比维度	OpenClaw	Hermes Agent
核心中枢	Gateway 网关（流量控制中枢）	AIAgent 代理循环（逻辑决策中枢）
架构模式	中心辐射型，插件化松耦合	分层解耦型，核心逻辑强内聚
会话管理	通道级会话隔离，Docker 沙箱	用户级跨会话记忆，SQLite 全检索
能力扩展	插件接入网关	核心循环原生支持 + 工具扩展
数据流转	所有流量必经网关	表现层 → 核心循环 → 表现层

三、能力矩阵

本节是两者差异最密集的部分，拆分为多个子维度逐一对比。

3.1 消息通道

维度	OpenClaw	Hermes Agent
支持数量	20+ 平台	15+ 平台
国内 IM	微信、企业微信、飞书、原生适配	v0.9.0 补齐上述支持
海外 IM	WhatsApp、Telegram、Discord、Slack、iMessage、Matrix	同左主流平台
IoT / 办公	—	Home Assistant、邮件、钉钉
媒体附件	全通道适配	部分适配
群组路由	支持（群组路由、提及规则、回复线程）	基础支持

小结：OpenClaw 通道广度更优，国内 IM 适配成熟度高；Hermes 通道偏向场景化，与记忆能力结合更紧密。

3.2 AI 模型支持

维度	OpenClaw	Hermes Agent
模型提供商	30+（OpenAI、Anthropic、Google、Ollama 等）	OpenRouter（200+）、Anthropic、NVIDIA NIM、OpenAI 等 OpenAI 兼容端点
累计模型数	—	400+
高可用机制	故障转移系统，多提供商轮转兜底	智能强弱模型自动路由、降级链
并行处理	—	并行子代理，任务自动拆分委托
本地模型	Ollama 全面支持	支持本地模型接入

小结：OpenClaw 强调高可用（故障自动切换）；Hermes 强调精细化调度（按任务难度选择模型），使用成本更优。

3.3 记忆与自学习

维度	OpenClaw	Hermes Agent
记忆架构	插件化（LanceDB、Wiki），会话级上下文，无原生跨会话闭环	三层架构（短期 + 长期 + 技能），FTS5 全检索
跨会话记忆	❌ 需手动配置扩展	✅ 原生支持
自主学习	插件化，无原生进化能力	闭环学习循环，自主沉淀技能与记忆
技能生成	人工开发静态包	从交互中自动创建可复用技能
上下文压缩	会话级窗口控制	自动上下文压缩

小结：这是两者最核心的分水岭。OpenClaw 记忆是可选插件能力；Hermes 记忆与学习是原生核心能力，实现「越用越聪明」。

3.4 工具与自动化

维度	OpenClaw	Hermes Agent
内置工具数	50+	60+
核心优势	CDP 浏览器自动化、Canvas 可视化工作区、端侧设备控制（相机、录屏、定位、通知）	沙箱代码执行、多环境远程操作、MCP 集成
执行后端	Docker 会话级沙箱	6 种（本地、Docker、SSH、Modal、Daytona、Singularity）
定时任务	Cron + Webhook	内置 Cron 调度器，自然语言定义定时任务
结果分发	—	跨平台自动分发

3.5 客户端与交互体验

维度	OpenClaw	Hermes Agent
客户端	CLI、Web UI、macOS / iOS / Android 原生客户端	CLI、Ink 终端 TUI、Web Dashboard、VS Code 扩展
移动端	✅ 原生支持，语音唤醒	❌ 无原生 App
语音能力	ElevenLabs + 系统 TTS，macOS/iOS/Android 全端覆盖	语音备忘录转录、Discord 语音接入，TTS 依赖模型提供商
技能系统	50+ 预制，ClawHub 分发，静态指令集	20+ 内置分类，代理自主创建可复用技能
多代理协同	会话间代理发现、消息互通	并行子代理，复杂任务自动拆分委托

四、技术栈与开发生态

4.1 技术栈对比

技术维度	OpenClaw	Hermes Agent
核心语言	TypeScript (ESM)	Python
最低运行环境	Node.js 22.16+（推荐 24+）	Python 3.11+
工程化	pnpm monorepo，tsdown 构建	模块化结构，pip 管理
测试	Vitest（单元 + 集成）	~3000 个测试用例，高覆盖
前端技术	Vite Web UI、Swift（macOS/iOS）、Kotlin（Android）	Ink TUI、React Dashboard
容器化	Docker / Docker Compose，会话级沙箱	Docker + 6 种远程执行后端
目标用户	全栈/前端/TypeScript 开发者	AI/算法/Python 开发者

4.2 生态对比

生态维度	OpenClaw	Hermes Agent
GitHub 星标	34.5 万+，27+ 活跃贡献者，月均 2-3 次迭代	3.5 万+（上线仅 2 个月），增速迅猛，Nous Research 背书
插件/技能	ClawHub 3 万+ 技能插件，52000+ 工具	20+ 内置分类，MCP 工具集成，快速成长期
文档本地化	全中文，12 国语言，国内社区丰富	中文资源较少，v0.9.0 补齐国内平台适配
迁移工具	❌ 无	✅ `hermes claw migrate` 一键迁移 OpenClaw 配置与密钥
二次开发	TypeScript 插件 SDK 标准化，前端开发者友好	Python AI 工具链无缝集成，AI 研发门槛低

五、部署与运维

运维维度	OpenClaw	Hermes Agent
快速安装	`npm` 全局一键，`openclaw onboard` 交互向导，5 分钟上线	`curl` 一键脚本，`hermes setup` 向导
跨平台	原生 Windows / macOS / Linux	Linux / macOS / WSL2 / Android Termux（Windows 需 WSL2）
常驻运行	`--install-daemon` 一键注册系统服务（launchd / systemd）	需手动配置 systemd / launchd
运行管理	单进程 · 单配置 · 运维极简	单进程，配置与密钥分离，门槛低
版本更新	stable / beta / dev 三通道，`openclaw update`	`hermes update` 一键升级，偶有破坏性变更
自检工具	`openclaw doctor` 安全配置审计	`hermes doctor` 诊断权限与密钥风险
最低硬件	笔记本、家用服务器、低配 VPS	5 美元/月 VPS，Android Termux

六、安全与隐私

安全维度	OpenClaw	Hermes Agent
安全原则	本地优先，网关默认绑定本地回环，显式配置才对外开放	最小权限原则，高风险操作默认人工审批
输入防护	消息通道入站视为不可信，配对审批机制	会话隔离，自动内存刷新，未知消息默认拦截
隔离能力	Docker 沙箱，工具访问白名单，2026-04 重构审批系统	五层纵深防御（用户授权 → 命令审批 → 容器沙箱 → 权限隔离 → 超时拒绝）
隐私保护	全量数据在自有硬件，可完全离线运行，100% 可控	本地 SQLite，无云端强制依赖，可完全离线
安全审计	全链路审计，2026 年修复 SSRF、媒体上传高危漏洞	操作审计日志，高风险操作默认留痕
历史事件	2026-02 CVE-2026-25253 高危漏洞（13.5 万公网暴露），已完成安全加固	无大规模高危安全事件

七、选型建议

7.1 选 OpenClaw

场景	说明
个人普通用户	需要 7×24 小时在线 AI 助手，跨微信/Telegram/WhatsApp 多 IM 统一使用
高隐私需求	所有数据全量在自有硬件，完全离线，无云端依赖
移动端深度集成	需要 macOS/iOS 语音唤醒、Android 设备控制（SMS/通知/定位/日历）
浏览器自动化	CDP 原生浏览器控制、网页操作、数据抓取
全栈/前端开发者	熟悉 TypeScript，希望基于插件 SDK 快速二次开发
短期使用	使用周期 < 3 个月，期望开箱即用、生态成熟

7.2 选 Hermes Agent

场景	说明
长期 AI 伙伴	需要跨会话记忆，越用越懂你的偏好与工作流，长期 ROI 更高
开发者/极客	复杂代码开发、远程运维、Docker/SSH/Modal 多环境支持
复杂任务处理	并行子代理调度、强弱模型智能路由，兼顾效率与成本
AI / Python 开发者	自定义代理逻辑、记忆策略，与 LLM 研发工具链深度集成
跨平台自动化	定时日报生成、数据备份、系统巡检，多平台结果推送
长期使用	使用周期 > 6 个月，能力随使用时长指数级增长

八、总结

核心差异一览

维度	OpenClaw	Hermes Agent
核心灵魂	「本地优先的统一 AI 网关」	「自进化的闭环学习代理」
核心关键词	接入、统一、可控	学习、记忆、进化
能力重心	多端接入、端侧融合、开箱即用	智能推理、自学习、复杂任务处理
技术栈	TypeScript / Node.js，全栈生态	Python / AI 研发工具链
记忆能力	插件化，可选能力	原生核心能力，三层架构
长期价值	随社区生态线性增长	随使用时长指数增长

未来趋势

OpenClaw：持续强化接入能力与安全合规，补齐自学习短板，巩固多通道网关市场地位
Hermes Agent：优化自学习闭环与模型调度，补齐客户端与通道覆盖，成为个人长期 AI 伙伴标杆

两者代表两条不同路线，没有绝对优劣，只有场景适配。

数据来源：项目官方文档、2026 年最新版本迭代日志、社区技术分析资料

Hermes Agent vs OpenClaw：基于官方文档的深度对比

2026-04-22T10:30:00.000Z

上一篇从迁移视角对比了 Hermes 与 OpenClaw，本篇直接对照两个项目的官方文档，从学习能力、架构设计、功能矩阵三个维度做更底层的分析。

数据来源：zread.ai/NousResearch/hermes-agent · zread.ai/openclaw/openclaw
更新时间：2026-04-22

1. 项目概览

Hermes Agent

属性	值
项目	NousResearch/hermes-agent
开发组织	Nous Research
编程语言	Python 3.11+
许可证	MIT
当前版本	v0.10.0
定位	自改进的 AI Agent 运行时
核心特性	闭合学习循环 · 模型无关 · 多 Provider 路由

“Unlike conventional AI assistants that reset with every conversation, Hermes features a closed learning loop — it creates skills from experience, improves them during use, nudges itself to persist knowledge, searches its own past conversations, and builds a deepening model of your workflow over time.”

OpenClaw

属性	值
项目	openclaw/openclaw
开发组织	OpenClaw Community
编程语言	TypeScript
许可证	MIT
定位	本地优先的多渠道 AI 助手
核心特性	本地运行 · 20+ 消息渠道 · 插件扩展

“OpenClaw is an open-source personal AI assistant that runs entirely on your own hardware. Think of it as your own private AI operator, always on, always yours.”

一句话总结

Hermes Agent = 自改进的学习型 Agent
OpenClaw = 本地优先的多渠道助手

2. 核心技术对比

维度	Hermes Agent	OpenClaw
语言	Python 3.11+	TypeScript
架构哲学	模型无关运行时	本地优先控制平面
学习能力	✅ 闭合学习循环	❌ 无内置学习
核心范式	工具调用 + 记忆 + 压缩	消息网关 + 插件
会话模型	AIAgent 对话引擎	Pi Agent 会话模型

Hermes 的学习循环

1	用户交互 → 经验积累 → 技能自创建 → 使用中改进 → 知识持久化 → 下次会话 recall

OpenClaw 每次会话都是白板，没有内置学习机制。

3. 架构设计对比

Hermes Agent 架构

┌─────────────────────────────────────────────────┐
│              Hermes Agent Runtime                 │
├─────────────────────────────────────────────────┤
│  AIAgent Conversation Engine                     │
│  ├── Tool Registry (50+ 内置工具)                │
│  ├── Memory Manager (三层记忆)                   │
│  ├── Context Compressor (自动压缩)               │
│  ├── Skills System (SKILL.md 标准)               │
│  └── Multi-Provider Router                       │
├─────────────────────────────────────────────────┤
│  Subagent Delegation (最多 3 并发子代理)          │
│  MCP Integration                                 │
│  Plugin Architecture                             │
└─────────────────────────────────────────────────┘
            ↓ 多平台交付
    飞书 · 微信 · Telegram · Discord · ...

OpenClaw 架构（Hub-and-Spoke）

              ┌─────────────────┐
              │  Pi Agent Runtime│
              └────────┬────────┘
                       │
        ┌──────────────┼──────────────┐
        │              │              │
┌───────▼───────┐      │    ┌─────────▼───────┐
│ Model Providers│      │    │  Clients         │
│ OpenAI        │      │    │  CLI             │
│ Anthropic     │      │    │  Web Chat        │
│ Google        │      │    │  macOS/iOS/Android│
│ Ollama/Local  │      │    └──────────────────┘
│ 30+ more      │      │
└───────────────┘      │
              ┌────────┴────────────────────┐
              │                             │
  ┌───────────▼──────┐         ┌────────────▼──────┐
  │ Messaging Channels│         │ Gateway (WS)      │
  │ WhatsApp          │         │ ws://127.0.0.1    │
  │ Telegram          │         │    :18789         │
  │ Slack / Discord   │         └───────────────────┘
  │ Signal / 20+ more │
  └───────────────────┘

核心架构差异

差异点	Hermes Agent	OpenClaw
中心组件	AIAgent 引擎	Gateway WebSocket
绑定方式	工具 + 记忆	消息通道
数据流向	用户 → Agent → 工具	用户 → Gateway → Agent → Provider
本地化	可选	核心设计原则
端口	无固定端口	`ws://127.0.0.1:18789`

4. 功能特性逐项对比

4.1 学习与记忆

特性	Hermes Agent	OpenClaw
学习循环	✅ 闭合学习 · 自创技能 · 使用中改进	❌ 无
长期记忆	✅ MEMORY.md + USER.md + FTS5	❌ 简单文件存储
会话搜索	✅ FTS5 全文 + LLM 摘要	❌ 基础历史
跨会话 recall	✅	❌
记忆容量管理	✅ 严格限制 + 自动整合	❌ 无
记忆安全扫描	✅ Injection 扫描	❌ 无
外部记忆 Provider	✅ 8 种（Honcho / Mem0 / Holographic…）	❌ 无

结论：Hermes 记忆系统远超 OpenClaw。

4.2 Agent 能力

特性	Hermes Agent	OpenClaw
核心引擎	AIAgent Conversation Engine	Pi Agent
多 Agent 路由	✅ 子代理委托系统	✅ Multi-Agent Routing
并行工具执行	✅	❌ 顺序执行
上下文压缩	✅ 自动 Context Compression Engine	✅ Context Engine
会话检查点	✅ 自动快照 + `/rollback`	❌ 无
对话历史	SQLite FTS5	基础支持

4.3 消息平台

平台	Hermes Agent	OpenClaw
飞书	✅ 原生集成	❌ 无
微信	✅ 原生集成	❌ 无
Telegram	✅	✅
Discord	✅	✅
Slack	✅	✅
WhatsApp	✅	✅
Signal	✅	✅
Matrix	✅	❌
Mattermost	✅	❌
Home Assistant	✅	❌
平台总数	10+	20+

结论：OpenClaw 支持更多小众平台，但 Hermes 覆盖了飞书/微信这个关键差异。

4.4 开发工具

特性	Hermes Agent	OpenClaw
TDD 支持	✅ RED-GREEN-REFACTOR	❌ 无
系统调试	✅ 4 阶段根因调查	❌ 基础
代码审查	✅ 独立审查子代理	❌ 基础
计划模式	✅ plan + writing-plans	❌ 无
子代理开发	✅ subagent-driven-development	❌ 无
GitHub 集成	✅ 完整 PR/Issue 工作流	基础

4.5 自动化

特性	Hermes Agent	OpenClaw
Cron 定时任务	✅ 完整内置	✅ Cron Jobs
Webhook	✅	✅
自然语言任务描述	✅	❌
多平台结果推送	✅ 飞书/微信/Telegram	有限
代码执行	✅ 沙箱 Python RPC	❌
Batch 处理	✅ 并行批处理	❌ 无

4.6 媒体能力

特性	Hermes Agent	OpenClaw
语音模式	✅ 完整语音对话	✅ Voice Wake and Talk
Discord 语音	✅	❌
图片生成	✅ 8 种模型	❌ 无
Vision 多模态	✅	基础
浏览器自动化	✅ 多后端	✅ CDP 集成
YouTube 处理	✅	❌ 无
GIF 搜索	✅	❌ 无

4.7 扩展性

特性	Hermes Agent	OpenClaw
技能格式	SKILL.md（agentskills.io 兼容）	ClawHub
插件系统	✅ Plugin Architecture	✅ Plugin SDK
MCP 协议	✅ 完整支持	❌ 无
IDE 集成	✅ VS Code / Zed / JetBrains（ACP）	❌ 无
API Server	✅ OpenAI 兼容	❌ 无
Provider 路由	✅ 多 Provider 智能路由	✅ Provider Failover

5. 记忆与学习系统

Hermes 的闭合学习循环

用户交互
   ↓
经验积累
   ↓
技能自创建 ──→ 使用中持续改进
   ↓
知识持久化
   ↓
下次会话 recall
   ↑
（循环）

自改进机制的四个关键：

技能自创建（Skill Self-Improvement）：从每次交互中提炼可复用技能
使用中持续改进（Nudges）：运行时主动优化已有技能
主动持久化（nudges itself to persist knowledge）：不依赖用户触发
历史搜索：FTS5 全文检索跨会话记忆

OpenClaw 的记忆

OpenClaw 没有学习机制——消息历史存入基础 SQLite，每次会话重新开始，上下文不跨会话传递。

6. 技能系统对比

Hermes 技能系统

~/.hermes/skills/
├── SKILL.md           # YAML frontmatter + Markdown
├── references/        # 参考文档
├── templates/         # 模板
└── scripts/           # 脚本

# agentskills.io 兼容标准

技能自动加载：智能匹配任务 → 自动加载相关技能 → 执行

技能分类（50+）：

分类	代表方向
software-development	TDD / 调试 / 计划 / 审查
github	完整 PR/Issue 工作流
mlops	训练 / 推理 / 评测 / 云端部署
productivity	Notion / Google Workspace / PowerPoint
media	YouTube / 音乐 / GIF
autonomous-ai-agents	Claude Code / Codex / OpenCode
note-taking	Obsidian
research	arXiv / 博客监控
social-media	X/Twitter

OpenClaw 技能系统

workspace/skills/       # 工作区技能
~/.agents/skills/       # 跨项目技能
~/.openclaw/skills/     # 托管/共享技能

# 来源：ClawHub 市场

技能对比

维度	Hermes	OpenClaw
格式标准化	✅ agentskills.io	社区格式
自动加载	✅ 智能匹配	手动加载
自改进	✅ 使用中持续改进	❌ 无
技能数量	50+	有限
技能分类	15+ 分类	扁平

7. 生态与扩展性

Hermes 生态

类别	内容
Provider	Nous Portal / OpenRouter（200+）/ Anthropic / NVIDIA NIM / OpenAI / Google / Mistral / Bedrock / 任意 OpenAI 兼容端点
插件	Memory Provider / Context Engine Plugin
MCP	完整 MCP 协议支持
IDE	VS Code / Zed / JetBrains（ACP）
API	OpenAI 兼容 HTTP endpoint
RL	轨迹数据生成用于强化学习

OpenClaw 生态

类别	内容
Provider	OpenAI / Anthropic / Google / Ollama 本地 / 30+
插件	Plugin SDK
应用	macOS App / iOS App / Android App
渠道	20+ 消息平台
技能市场	ClawHub

扩展性对比

能力	Hermes	OpenClaw
MCP 协议	✅	❌
IDE 集成	✅ ACP	❌
API Server	✅ OpenAI 兼容	❌
本地运行	可选	核心原则
强化学习	✅ RL Research Environments	❌
技能市场	ClawHub（兼容）	✅

8. 适用场景分析

选 Hermes Agent 当：

需要飞书/微信集成
需要 AI 自学习、自改进能力
需要 TDD、代码审查等工程实践
需要多子代理并行处理
需要 MCP 协议扩展
需要 RL 训练数据生成
需要 OpenAI 兼容 API
需要 Vision / 语音 / 图片生成
需要上下文压缩节省 token
追求活跃开发和持续新功能

选 OpenClaw 当：

强需求本地运行（数据不离开机器）
需要 20+ 消息平台支持（含小众平台）
需要 macOS / iOS / Android 原生 App
熟悉 TypeScript/JavaScript 生态
只需简单的消息 Bot 功能
偏好成熟稳定的早期项目

9. 总结

核心定位

	Hermes Agent	OpenClaw
Slogan	“Self-improving AI agent”	“Local-first, multi-channel AI assistant”
关键词	学习 · 自改进 · 模型无关	本地 · 多渠道 · 插件化
语言	Python	TypeScript
阶段	活跃开发（v0.10.0）	成熟稳定

功能矩阵评分

类别	Hermes	OpenClaw	胜出
学习能力	★★★★★	★☆☆☆☆	Hermes
记忆系统	★★★★★	★★☆☆☆	Hermes
飞书/微信	✅	❌	Hermes
本地化	★★★☆☆	★★★★★	OpenClaw
平台覆盖	★★★★☆	★★★★★	OpenClaw
开发工具	★★★★★	★★☆☆☆	Hermes
自动化	★★★★☆	★★★☆☆	Hermes
媒体能力	★★★★★	★★★☆☆	Hermes
扩展性	★★★★★	★★★★☆	Hermes
原生 App	❌	✅	OpenClaw

最终建议

需要飞书/微信，或需要 AI 自学习能力 → 选 Hermes Agent
强需本地运行、20+ 消息平台、原生移动 App → 选 OpenClaw
需要最强开发工具链（TDD / 调试 / 审查）→ 选 Hermes Agent

数据来源：zread.ai/NousResearch/hermes-agent · zread.ai/openclaw/openclaw

Hermes Agent vs OpenClaw：一次彻底的架构进化

2026-04-22T10:00:00.000Z

OpenClaw（也叫 Clawdbot、Molbot）是许多人接触 AI Agent 的起点，而 Hermes Agent 正是它的官方继任者。本文从架构、记忆、技能、自动化、配置五个维度深入对比两者差异，并附完整迁移指南。

版本说明：Hermes v0.10.0 | OpenClaw (legacy) — 更新于 2026-04-22

1. 背景关系

血缘关系

Hermes Agent 与 OpenClaw 有着直接的继承关系。OpenClaw 是早期项目，Hermes 是其继任者，官方提供了一键迁移工具：

1	hermes claw migrate

命名对应

OpenClaw	Hermes	说明
`~/.openclaw/`	`~/.hermes/`	主配置目录
`clawdbot.json`	`config.yaml`	主配置文件
`workspace/SOUL.md`	`~/.hermes/SOUL.md`	人格定义
`workspace/MEMORY.md`	`~/.hermes/memories/MEMORY.md`	长期记忆
`workspace/AGENTS.md`	`AGENTS.md` (项目内)	Agent 指令
`~/.agents/skills/`	`~/.hermes/skills/`	技能目录

2. 核心架构对比

维度	OpenClaw	Hermes Agent
编程语言	Python	Python
核心设计	单体架构	模块化架构
工具调用	基础工具集	50+ 内置工具，可扩展
子代理	有限支持	`delegate_task` 多子代理并行
上下文压缩	简单	自动上下文压缩 + 缓存
前缀缓存	无	Anthropic Prompt Caching 支持
检查点/回滚	无	内置 `/rollback`
批量处理	无	`batch_runner.py` 并行处理

Hermes 独有特性

自动检查点 — 文件修改前自动快照
前缀缓存 — 减少 token 消耗
多子代理并行 — 最多 3 个并发
事件钩子系统 — 生命周期自定义
插件系统 — Tool interception、Guardrails
API Server — OpenAI 兼容接口
IDE 集成 (ACP) — VS Code / Zed / JetBrains
RL Training — 轨迹数据生成

3. 功能特性对比

3.1 记忆系统

特性	OpenClaw	Hermes
MEMORY.md	✅	✅（增强）
USER.md	✅	✅（增强）
会话搜索	基础	FTS5 全文搜索 + LLM 摘要
外部记忆 Provider	无	8 种（Honcho / Mem0 / Holographic…）
记忆容量管理	基础	严格字符限制 + 自动整合
安全扫描	无	Prompt Injection 扫描

3.2 技能系统

特性	OpenClaw	Hermes
技能格式	简单	SKILL.md 标准格式
技能市场	无	agentskills.io 兼容
技能自动加载	基础	智能匹配 + 自动加载
官方技能数量	少量	50+ 内置技能
技能分类	扁平	15+ 分类

3.3 自动化

特性	OpenClaw	Hermes
定时任务（Cron）	外部	内置完整 Cron 系统
任务调度	无	自然语言描述
定时任务交付	有限	多平台推送（飞书/微信/Telegram…）
代码执行	基础	沙箱 Python RPC
工作流编排	无	子代理 + 事件钩子

3.4 媒体与 Web

特性	OpenClaw	Hermes
浏览器自动化	基础	多后端（Browserbase / Browser Use / CDP / Chromium）
语音模式	TTS 基础	完整语音对话
语音通话（Discord）	无	✅
图片生成	无	8 种模型（FLUX / GPT-Image / Ideogram…）
Vision 多模态	基础	增强 + clipboard paste
YouTube 处理	无	✅
GIF 搜索	无	✅

3.5 开发工具

特性	OpenClaw	Hermes
GitHub 集成	基础	完整 PR/Issue 工作流
代码审查	基础	独立审查子代理 + 自动修复
TDD 支持	无	RED-GREEN-REFACTOR 流程
系统调试	无	4 阶段根因调查
计划模式	无	plan + writing-plans
MCP 协议	无	✅

4. 记忆系统对比

OpenClaw 记忆

1
2
3

workspace/MEMORY.md          # 每日记忆文件
workspace/USER.md            # 用户画像
workspace/memory/*.md        # 日记式记忆

Hermes 记忆（三层架构）

┌─────────────────────────────────────────┐
│            SYSTEM PROMPT                 │
│  SOUL.md (人格) │ MEMORY.md │ USER.md   │
└─────────────────────────────────────────┘
                    ↓
         session_search (FTS5)
                    ↓
      外部 Provider (Honcho/Mem0/...)

关键改进

改进点	OpenClaw	Hermes
容量限制	无硬性限制	严格字符限制防膨胀
去重机制	无	自动去重
安全扫描	无	Injection 扫描
记忆融合	简单追加	智能合并 + 整合
搜索能力	无	全文搜索 + LLM 摘要

5. 技能系统对比

OpenClaw 技能

1 2	workspace/skills/ # 工作区技能 ~/.agents/skills/ # 跨项目技能

Hermes 技能结构

~/.hermes/skills/
├── SKILL.md                # 技能定义（YAML frontmatter + Markdown）
├── references/             # 参考文档
├── templates/              # 模板文件
└── scripts/                # 脚本

技能文件格式（SKILL.md）

---
name: my-skill
description: 技能描述
version: 1.0.0
tags: [tag1, tag2]
related_skills: [other-skill]
---

# 技能名称

## 触发条件
何时使用此技能

## 使用步骤
1. 步骤一
2. 步骤二

Hermes 技能分类（50+）

├── software-development/     # TDD、调试、计划、审查
├── github/                   # GitHub 全套
├── devops/                   # Webhook
├── mlops/                    # 训练、推理、评测
│   ├── models/               # CLIP / Whisper / Stable Diffusion
│   ├── training/             # Axolotl / TRL / Unsloth
│   ├── inference/            # vLLM / llama.cpp / GGUF
│   └── evaluation/           # lm-evaluation-harness / W&B
├── productivity/             # Notion / Google Workspace / PowerPoint
├── media/                    # YouTube / 音乐 / GIF
├── creative/                 # ASCII 艺术 / 文生图
├── gaming/                   # Minecraft / Pokemon
├── autonomous-ai-agents/     # Claude Code / Codex / OpenCode
├── note-taking/              # Obsidian
├── research/                 # arXiv / 博客监控
└── social-media/             # X/Twitter

6. 配置体系对比

OpenClaw 配置

// clawdbot.json
{
  "agents": {
    "defaults": {
      "model": "claude-3-5-sonnet",
      "timeoutSeconds": 300
    }
  },
  "channels": {},
  "mcp": {}
}

Hermes 配置

# config.yaml
agent:
  max_turns: 60
  verbose: off
  reasoning_effort: medium

memory:
  memory_enabled: true
  user_profile_enabled: true
  memory_char_limit: 2200
  user_char_limit: 1375

providers:
  primary: anthropic
  fallbacks:
    - openrouter
    - google

platforms:
  feishu:
    enabled: true
  weixin:
    enabled: true

配置迁移映射

OpenClaw	Hermes	备注
`agents.defaults.model`	`model`	直接映射
`agents.defaults.timeoutSeconds`	`agent.max_turns`	值除以 10
`agents.defaults.sandbox.backend`	`terminal.backend`
`session.reset.mode`	`session_reset.mode`
`mcp.servers.*`	`mcp_servers.*`	直接映射
`browser.cdpUrl`	`browser.cdp_url`
`approvals.exec.mode`	`approvals.mode`	值映射

7. 消息平台支持

平台	OpenClaw	Hermes
飞书	有限	✅ 完整支持
微信	有限	✅ 完整支持
Telegram	✅	✅
Discord	✅	✅
Slack	✅	✅
WhatsApp	✅	✅
Signal	✅	✅
Matrix	✅	✅
Mattermost	✅	✅
Home Assistant	有限	✅
自建 Web	无	✅ API Server

Hermes 独有接入

飞书 / 微信 完整集成
Open WebUI / LobeChat / LibreChat 支持
VS Code / Zed / JetBrains 集成（ACP 协议）

8. 迁移指南

一键迁移

# 预览迁移内容
hermes claw migrate --dry-run

# 完整迁移（包含密钥）
hermes claw migrate --preset full --yes

# 仅迁移用户数据（不含密钥）
hermes claw migrate --preset user-data

迁移内容清单

内容	状态
SOUL.md	✅ 自动迁移
MEMORY.md / USER.md	✅ 自动迁移 + 合并去重
技能	✅ 迁移到 `skills/openclaw-imports/`
模型配置	✅
MCP 服务器	✅
TTS 设置	✅
消息平台 Token	✅（需要 `--preset full`）
Cron 任务	⚠️ 需手动重建
插件	⚠️ 需手动配置
HEARTBEAT / BOOTSTRAP	⚠️ 存档后手动处理

迁移后检查

hermes status              # 检查 API 认证
hermes memory status       # 查看记忆状态
hermes skills list         # 确认技能加载
systemctl --user restart hermes-gateway   # 重启网关

9. 总结

何时选 Hermes

如果你有以下任意一项需求，Hermes 都是更好的选择：

需要飞书/微信原生集成
需要多子代理并行处理复杂任务
需要 TDD / 系统调试 / 代码审查等工程实践
需要定时任务 + 多平台推送
需要图片生成 / 语音对话
需要 MCP 协议支持
需要 RL 训练数据生成
想要持续更新和新功能

核心差异总结

维度	OpenClaw	Hermes
定位	基础 Agent	全能助手平台
技能生态	简单	50+ 官方技能
自动化	基础	完整 Cron + Hooks
记忆	文件式	三层架构 + Provider
开发工具	基础	TDD / 调试 / 审查 / 计划
媒体	有限	语音 / 图像 / 视频
扩展性	有限	插件 + MCP
活跃度	维护中	活跃开发

从 OpenClaw 迁移的理由

飞书/微信原生支持 — OpenClaw 有限，Hermes 完整集成
活跃开发 — 新功能持续更新
更完善的工程实践 — TDD、调试、代码审查内置
更强大的记忆 — 三层架构 + 外部 Provider
多子代理 — 复杂任务并行处理
完整自动化 — Cron + Hooks + 事件驱动

数据来源：Hermes Agent 官方文档 v0.10.0

AI不是替代人，而是重新定义「人该做什么」

2026-04-11T03:44:00.000Z

Satya Nadella 思想的核心——**AI 不是替代人，而是重新定义”人该做什么”**。
这不是效率革命，而是”认知权力”的重新分配。

本文从三个维度，拆解 AI 重塑工作与公司价值的底层逻辑。

一、不是”人是混乱的”，而是”组织无法编码人”

过去公司最大的问题，不是没有数据，而是**”人的经验无法被机器理解”**。

从 Bill Gates 的”信息尽在指尖”，到今天大模型：

过去：数据 = 结构化表格（ERP / CRM）
现在：数据 = 一切（会议、聊天、代码、邮件、脑子里的经验）

关键变化是：

AI 第一次让”非结构化认知”变成”可计算资产”

这带来一个非常现实的变化：

老员工的价值，不再只是”经验”
而是：能否被沉淀为组织的 AI 能力

结论（很关键）：未来淘汰的不是能力弱的人，而是”不可被 AI 放大的人”。

二、不是”宏观委托 + 微观驾驭”，而是”认知接口重构”

“AI 指挥官”这个词是对的，但还不够彻底。升级一个模型：

人 = Prompt + Judgment + Feedback Loop

未来工作流不是”人 → 做事”，而是：

人 → 定义问题（Prompt）
AI → 执行探索
人 → 判断与修正（Judgment）
AI → 继续迭代（Loop）

真正的分水岭，不是会不会用 AI

而是：你能不能定义一个”好问题”

同样一句话”分析下季度市场策略”，不同人差距会极大：

普通人：一句模糊指令 → 得到泛化答案
高手拆成：
- 市场分层（区域 / 人群）
- 增长变量（价格 / 渠道 / 产品）
- 风险假设（竞争 / 政策）
- 数据来源约束

本质差异：不是 AI 强不强，而是你的”问题建模能力”强不强。

三、不是”基础模型主权”，而是”认知资产资本化”

企业真正的护城河，不是模型，而是**”被模型吃进去的数据结构”**。

三层护城河正在形成：

第一层：公共层（被抹平）

开源模型
API 能力
→ everyone can access

第二层：应用层（短期竞争）

AI 工具
Agent 产品
→ 很快同质化

第三层：核心层（真正壁垒）

组织内部认知资产，包括：

客户行为数据
决策逻辑
风控规则
成功 / 失败案例

所以真正的问题不是”有没有 AI”，而是：

“你的公司有没有可被 AI 学习的知识体系？”

四、一个最关键的风险

大部分公司，根本没有”可沉淀的知识”。

现实情况是：

决策靠拍脑袋
流程不标准
数据不干净
经验在个人脑子里

这种公司即使接入 AI，只会”放大混乱”，而不是”提升效率”。

五、AI 时代的三次”角色跃迁”

阶段	转变	淘汰逻辑
第一跃迁	执行者 → 问题定义者	不会问问题 = 被淘汰
第二跃迁	经验拥有者 → 认知产品经理	不能沉淀经验 = 价值下降
第三跃迁	工具使用者 → 系统设计者	不会构建 AI 工作流 = 上限封死

六、一个”行动级建议”

对于关注 AI + 项目管理的人，可以做一件非常具体的事：

建一个”AI 项目管理操作系统”

包含：

项目复盘 → 喂给 AI（沉淀经验）
风险识别 → 做成提示词模板
需求分析 → 结构化输入 AI
自动生成：周报、风险清单、里程碑规划

本质是在做一件事：

把你的”项目管理经验”，变成”AI 可复用能力”

AI 不会取代人，但会取代”无法被 AI 放大的那部分人”。

Satya Nadella 在重新定义公司是什么

2026-04-11T03:40:00.000Z

这篇来自 Cheeky Pint 的访谈，本质上是一次非常”纳德拉式”的认知输出——不是讲 AI 技术，而是在讲**公司如何在 AI 时代重新定义”存在方式”**。

本文分三层拆解：他说了什么 → 真正隐含的逻辑 → 我的判断。

一、他到底在说什么（核心观点还原）

主角：Satya Nadella

1. 公司正在从”人 + 流程” 转向 “模型 + 知识”

他提出一个非常关键的点：

企业的”主权”（sovereignty），未来在于是否拥有自己的基础模型

本质是：

过去：公司 = 人 + SOP + 文档
现在：公司 = embedding + 权重 + agent 系统

甚至他说：企业知识会变成”模型里的权重”[Cheeky Pint]。

2. AI 系统 ≠ 模型，而是”三件套”

AI 要落地，必须有三层：

Memory（记忆）
Entitlements（权限）
Actions（行动能力）

模型只是”大脑”，这三者才是”身体”[Cheeky Pint]。

3. AI 不是泡沫，反而是供给不足

他给了一个反直觉判断：

互联网泡沫：基础设施过剩（dark fiber）
AI 时代：算力严重不够

“没有任何资源是闲置的，全部卖光”

4. 模块化 > 一体化（非常反直觉）

不是封闭平台赢，而是模块化组合赢

比如：

多模型（OpenAI + Claude 等）
agent 作为调度层[Cheeky Pint]

5. AI 的终极形态：Agent + Commerce

他提到一个关键词：

agentic commerce（智能体驱动商业）

意味着：

用户不再”操作软件”
agent 直接替你完成决策和交易

二、真正厉害的地方（很多人没看懂）

这篇文章真正厉害的，不是观点，而是范式迁移。

公司 = “可计算系统”

他在干一件很颠覆的事：把”公司”从组织，变成一个计算结构

传统公司：

1	人 → 沟通 → 决策 → 执行

未来公司：

1	数据 → 模型 → agent → 自动执行

这就是：Company as a Model（公司即模型）

知识第一次被”编译”

过去	现在
知识在脑子里（不可复制）	直接进入模型（embedding / weights）
写成文档（低效）	可复制
做成流程（僵化）	可推理、可自动执行

这是”知识工业化”的开始。

护城河彻底变了

传统护城河：技术 → 产品 → 渠道

纳德拉的判断：未来护城河 = 你的数据 + 你的模型 + 你的 agent 系统

甚至可以推导出一句话：

模型是公共的，系统才是壁垒

为什么他说”模块化更强”

模型会商品化（commodity）。所以：

你不能押宝单一模型
必须做”调度层”（agent + orchestration）

这就是微软在做的：

Copilot = UI
Azure = infra
agent = 中间层

三、我对这篇的判断

这篇不是观点，而是”路线图”——微软未来 10 年的路线图

判断 1：他已经默认”AGI 不重要”

他完全不谈 AGI、超智能，只关心有没有产生价值。这和很多 AI 公司完全不同。

判断 2：真正的战争不在模型层

模型可以替换（ensemble of models）。所以战争在：

数据层
权限层
工作流层
agent 层

判断 3：他在定义”AI 时代的操作系统”

微软在做的其实是：企业级 AI OS

模型（OpenAI / Claude / ...）
        ↓
Agent 调度层
        ↓
企业数据（Graph）
        ↓
应用（Office / Teams）

四、最狠的一句话

“未来公司不是由人组成，而是由模型驱动。”

五、对项目管理和 AI 结合的启发

这篇访谈对关注 AI + 管理的读者是直接命中，可以立刻做三件事：

1. 从”项目管理”到”Agent 编排”

不再盯人，开始设计：

agent 流程
数据流
自动决策链

2. 把”经验”变成”系统”

项目风险判断、需求拆解逻辑——全部可以变成：

prompt 模板
agent 流程
知识库

3. 核心能力要变

未来 PM 不再是”跟进进度”，而是设计决策系统。

最后一句

Satya Nadella 这篇访谈的本质不是讲 AI：他在重新定义”公司是什么”

原文地址：