数据QA大模型能力清单&学习手册
从传统感知类 QA 到大模型数据 QA 的 8 周升级路线。本手册包含行业全景、范式对比、能力框架、详细培训计划四大部分, 为团队提供一份从"看框对不对"到"定义什么是好"的完整迁移指南。
行业全景 —— 大模型数据产业的坐标系
培训之前先建立宏观坐标系。这一部分提供 4 个视角:数据形态、行业玩家、技术信号(System Card)、未来趋势。
一、大模型数据的 7 种形态分层
大模型不是一种数据训出来的,而是多个阶段、多种形态的数据叠加。每一种形态的 QA 工作内容都不一样。
预训练数据
单价低海量文本、代码、图像、视频,通过爬虫 + 清洗得到。规模 TB-PB 级。
- 去重、低质过滤
- 毒性内容过滤
- PII 隐私去除
- 数据分布审计
SFT 数据
单价中高质量"指令-回答"对。让模型学会"听懂人话、好好回话"。
- 回答质量审核
- 风格一致性
- 任务覆盖度
- 多轮连贯性
偏好数据 / RLHF
单价中-高同一问题下给出多条回答,让标注员选哪条更好、为什么。
- AB 偏好打分
- 偏好理由结构化
- 标注一致性 IAA
- 偏好 bias 识别
Reasoning 数据
单价高带完整思维链的数据。训练 o1 / R1 / Claude thinking 这类推理模型。
- 推理链每步验证
- 错误类型分类
- 多解法对比
- 推理质量打分
Agent Trajectory
单价高智能体完成任务的完整操作序列。训练 GUI agent、coding agent。
- 任务完成度评测
- 关键步骤识别
- 失败原因分类
- 错误恢复合理性
Benchmark 数据
单价高测模型能力的数据集,如 MMLU、GSM8K、SWE-bench、GAIA。
- benchmark 题目设计
- 答案唯一性验证
- 难度梯度审计
- 防止题目泄露
Red-teaming
单价高 · 合规驱动挖掘模型边界、安全风险的对抗性数据。越狱、有害诱导、隐私探测。
- 攻击性提问设计
- 响应安全性判定
- 越狱模式分类
- 危险等级分级
二、数据生产服务行业玩家全景
主要玩家
| 公司 | 主营 | 特点 |
|---|---|---|
| Scale AI | 通用标注 + RLHF + 评测 | 行业龙头,估值百亿美元级,客户覆盖 OpenAI / Meta / 美军 |
| Surge AI | 高质量 RLHF + 偏好数据 | 主打"专家级标注员",Anthropic 等公司的核心供应商 |
| Invisible | 复杂工作流 + agent 数据 | 强调"人 + AI 混合工作流" |
| Mercor | 专家网络 + 面试评估 | 用 AI 撮合专家做高质量标注 |
| Snorkel | 弱监督 + 编程式标注 | 偏工具产品形态 |
| Labelbox / SuperAnnotate | 标注平台 SaaS | 工具型公司,提供标注基础设施 |
5 种商业模式
① 通用标注服务
按条计费,规模化交付。客户:各模型厂商、AI 公司
② 垂类专家网络
高单价、专家撰写。客户:主流大模型厂商 RLHF 团队
③ 评测服务
benchmark 设计 + 第三方评估。客户:模型厂商、监管机构
④ 安全 / 红队
攻击性数据 + 风险评估。客户:模型厂商、合规客户
⑤ 数据基础设施
SaaS 标注平台。客户:自有标注团队的中型公司
三、Model Card / System Card:行业的"风向标"
每当 OpenAI、Anthropic、Google 发布新模型时,会同步发布一份详细的能力评估 + 风险评估报告。这份报告就叫 Model Card / System Card。
主流厂商的评估框架
| 厂商 | 框架名 | 核心内容 |
|---|---|---|
| OpenAI | Preparedness Framework | 风险分 CBRN / Cyber / Persuasion / Model Autonomy 四大类,每类 Low / Medium / High / Critical 四档 |
| Anthropic | Responsible Scaling Policy (RSP) / ASL Levels | ASL-2 / ASL-3 / ASL-4 分级,每级有触发条件和应对措施 |
| Google DeepMind | Frontier Safety Framework (FSF) | 关注 CCL(Critical Capability Level)等关键能力门槛 |
关键评估维度
能力维度
- Reasoning:数学、逻辑、推理
- Coding:编程、代码修复、软件工程
- Agentic:多步任务、工具调用、长期规划
- Multimodal:图像、视频、音频理解
- Knowledge:通识、专业知识
- Instruction Following:指令遵循
风险维度
- CBRN:化学、生物、放射、核武器相关能力
- Cyber:网络攻击、漏洞挖掘、恶意代码
- Model Autonomy:自我复制、规避监管
- Persuasion:操纵、说服、虚假信息
- Privacy:隐私泄露、PII 处理
① 暴露模型局限—— 每份 system card 都明确说"模型在 XX 任务上还做不好"。这些局限恰恰是评测服务的真实需求来源。
② 定义评测标准—— system card 引用哪些 benchmark、用哪些 rubric,就是这个赛道的"行业标准"。
③ 预判客户需求—— 当 OpenAI / Anthropic 在 system card 中说"我们在 reasoning 上需要更难的题",这就是下一年的订单方向。
推荐阅读顺序(给新人)
- 先读 OpenAI o1 / o3 / GPT-5 system card 中"Reasoning"章节 → 理解推理评测
- 再读 Anthropic Claude 3.5/3.7/4 system card → 理解安全和 agentic 评估
- 然后读 Google Gemini system card → 理解多模态评估
- 最后读 Anthropic 的 RSP 文档 + OpenAI 的 Preparedness Framework → 理解整体方法论
四、行业未来 12-24 个月趋势判断
Reasoning 数据需求爆发
自 OpenAI o1(2024)、DeepSeek R1(2025)以来,"推理模型"成为新主线。门槛高、单价高、稀缺。
Agent 普及 → Trajectory 评测刚需
Claude Computer Use、OpenAI Operator、Manus 等加速商业化。Agent 落地瓶颈不是模型,是过程评测。
多模态 / VLA 持续扩张
视频理解、Vision-Language-Action 模型在自动驾驶、具身、视频生成快速落地。
评测科学化:从"看分"到"设计分"
通用 benchmark 越来越饱和。客户意识到:跑分高 ≠ 业务能用。第三方定制评测兴起。
合规与红队需求上升
欧盟 AI Act、美国 EO、中国《生成式 AI 服务管理办法》陆续落地。安全评估成上线前置条件。
传统标注业务持续承压
通用图像、文本标注单价下降。单纯靠规模、靠人力的模式利润空间收窄。
开场背景 —— 传统感知 QA vs 大模型 QA 范式对比
在讲新东西之前,先把"过去做什么、未来做什么、什么变了、什么没变"讲清楚。
感知物理世界,做出物理动作
自动驾驶、具身机器人、视频内容审核等场景。数据是传感器对物理世界的采样。物理世界本身就是 ground truth。
理解符号世界,生成符号输出
语言、逻辑、知识的理解和生成。没有物理世界做兜底,好坏要由人来定义。
底层数学(神经网络、Transformer 架构)确实相通,但数据范式和 QA 的实际工作内容,几乎是两个不同的工种。
一、传统感知类 QA:相同的数据范式
自动驾驶、具身机器人、视频内容审核等场景在底层技术、数据形式、QA 工作内容上高度相似。
| 维度 | 自动驾驶 | 具身机器人 | 共同特点 |
|---|---|---|---|
| 主要传感器 | 摄像头、LiDAR、雷达、IMU | 摄像头、深度相机、力觉、关节编码器 | 多模态传感器 |
| 数据形式 | 视频流 + 点云 + 时序 | 视频流 + 点云 + 多模态时序 | 时空连续信号 |
| 采集方式 | 车队跑数据 | 遥操作、动捕、仿真 | 物理世界采样 |
| 标注对象 | 3D bbox、车道线、轨迹 | 物体 bbox、抓取点、动作 | 几何 + 行为标签 |
| Ground Truth | 物理世界(客观) | 物理世界(客观) | 唯一答案存在 |
| 评测指标 | MAP、IoU、碰撞率、接管率 | 任务成功率、抓取成功率 | 客观可量化 |
| QA 工作 | 找错标、漏标、边缘 case | 找错标、漏标、边缘 case | 视觉判断 + 一致性 |
二、大模型 QA:完全不同的数据范式
| 维度 | 大模型 QA |
|---|---|
| 输入 | 文本、代码、对话、图片、视频、工具调用 |
| 输出 | 文本回答、代码、推理链、agent 决策动作、生成图像 |
| 数据来源 | 人类标注 + 模型自生成 + 真实用户日志 + 合成数据 |
| 标注对象 | rubric 打分、AB 偏好对比、推理链逐步标注、agent trajectory 评分 |
| Ground Truth | 常常不存在唯一答案——靠 rubric + 多人共识定义"什么是好" |
| 评测方式 | benchmark + rubric + 人评 + LLM as judge,多重交叉 |
| QA 工作 | 设计标准、判断好坏、识别推理错误、对比答案谁更优 |
三、5 个最关键的不同
数据从"采集"变成"生产"
Ground Truth 从"客观"变成"约定"
标注从"看准"变成"判准"
评测从"一个指标"变成"一套体系"
QA 角色从"执行者"变成"标准设计者"
四、不变的部分:传统 QA 内核为什么仍有用
虽然范式变了,但 QA 内核里的这些能力完全适用到新场景:
| 已具备的能力 | 在大模型 QA 中怎么用 |
|---|---|
| 视觉判断 / 找细节 | 看推理链找跳步、看 agent trajectory 找错误步、看图文匹配找不一致 |
| 流程纪律 / 按 SOP | 按 rubric 稳定打分,避免主观漂移 |
| 一致性意识 | 直接对应 IAA(标注者一致性)——大模型数据的核心概念 |
| 边缘 case 嗅觉 | 在 benchmark 里设计"诱导失败"的 case,验证模型边界 |
| 团队协作 | 多人共同制定 rubric、交叉标注、共识对齐 |
五、一张图看懂
传统感知类 QA
大模型 QA
六、4 个常见误解先澄清
误解 1:大模型 QA 比传统 QA"高级"
不是高级,是不一样。传统 QA 在标注精度、规模、工程化上做得极致;大模型 QA 在标准设计、判断力上要求更高。两者都需要专业训练。
误解 2:大模型 QA 不需要专业知识
错。每个垂类都需要垂直知识——做代码评测要懂代码逻辑,做医疗评测要懂临床判断。这是走向专家通道的关键差异化。
误解 3:LLM as judge 不需要人
LLM as judge 是辅助工具,不是替代人。它有偏见(喜欢长答案)、有盲区。人类 QA 始终是 ground truth 的最终守门人。
误解 4:转型 = 学技术
不需要变成程序员或科学家。核心是判断力 + 流程 + 表达——这些不是技术能力,是 QA 本来就有的能力,只是要迁移到新场景。
① 过往不废:传统 QA 内核在大模型时代仍然有价值。
② 范式要换:用"看视频找错框"的心智做大模型 QA 会迷路,要主动切换到"标准设计者"思维。
③ 培训的本质:把内核从感知世界迁移到符号世界,把执行者心智升级为标准设计者心智。
能力框架与成长路径
本部分讲清楚 QA 团队在大模型时代要长出什么能力、走什么通道。
一、为什么要做这件事
QA 团队多年沉淀的能力——视觉判断、流程纪律、一致性把控、边缘 case 嗅觉——是行业稀缺的真本事。但行业在快速变化,传统标注业务规模收缩,团队主线方向已转向大模型数据生产。
大模型时代的 QA 不再只是"看框对不对",而是更复杂的判断型工作:一段推理过程对不对?这个 agent 完成任务的轨迹合不合理?两条回答哪条更好?这套 rubric 设计能让所有标注员打出一致的分吗?
这些工作的核心,不是技术,是判断力 + 流程 + 表达能力。这恰好是 QA 出身的人最适合做的。所以不是"转岗",而是"升级"——把已有的 QA 内核,迁移到一个更值钱的赛道上。
二、三条成长通道
基础通道
底色,不是起跑线限制
- 视觉判断(看图找细节、边缘 case)
- 流程纪律(按 SOP 稳定输出)
- 一致性意识
- 团队协作
主力通道
8 周培训目标
- A · 一致性 QA 核心
- B · 评测设计
- C · 交付能力
- D · 工具熟练度
专家通道
进阶方向
- 领域纵深(6+ 月专精)
- 需求拆解
- 方案设计
- 跨部门协作
三、四个核心能力簇详解
一致性 QA 核心能力
怎么让所有 QA 用同一套标准,打出一致的分。
为什么重要:大模型数据的好坏,70% 取决于评测标准的设计。
要学会的:- 看到任务能拆解 4-6 个评测维度
- 每个维度 3-5 档评分,附标准案例
- 写出可执行的标注指南
- 用 IAA 验证标注质量
评测设计能力
从"标注员"升级为"评测设计者"。
为什么重要:QA 从"看货"升级到"定义什么是好"的关键。
要学会的:- 熟悉 5-10 个主流 benchmark
- 识别 benchmark 的局限性
- 为具体需求设计 mini benchmark
- 评测推理链的每一步
交付能力
作为专业服务方,专业地呈现给业务方。
为什么重要:决定能不能直接面向业务方交付。
要学会的:- 写好 prompt(不只给模型,也给业务方)
- 熟练使用 1-2 个主流 agent 产品
- 评测 agent trajectory
- 写业务方能直接看懂的报告
工具熟练度
不熟工具,前面三个能力都用不出来。
为什么重要:每个工具都要用过 10+ 次,看视频不算掌握。
必学工具:- Claude / ChatGPT / Gemini
- Cherry Studio
- Manus / 智谱 AutoGLM
- Anthropic Console / OpenAI Playground
四、8 周培训路线图
三家产品
设计
设计
+ IAA
评测
+ Eval
Trajectory
实战
五、评估机制
透明、公平、可执行。没有评估的培训等于没有培训。
周度评估
- 每周一次小考(笔试 + 实操)
- 成绩公开,对齐认知
- 不达标:1on1 + 个性化补强
阶段评估
- 笔试 + 综合实操项目 + 答辩
- 培训负责人 + 业务方 + 第三方共同评估
- 评估结果用于确定后续通道
持续评估
- 每月复盘
- 每季度能力地图更新
- 每半年大复盘
六、常见疑问
8 周培训详细计划
每周内容包含:量化目标、学习资源、每日安排、实践案例、评测标准、周末小考、输出物清单、常见陷阱。
周节奏(每周通用):周一上午 2h 集中学习 + 周一下午 2h 个人自学 + 周二至周四每天 3h 自学 + 实操 + 周五上午 2h 自由练习 + 周五下午 1h 小组讨论 + 周末 1-2h 小考。
01
大模型基础 + 三家产品上手
- 每人能解释 10 个核心概念:LLM、token、context window、temperature、top-p、system prompt、few-shot、CoT、RLHF、hallucination
- 完成 Claude / ChatGPT / Gemini / Cherry Studio 4 个工具的注册与基础使用
- 用三家模型分别完成 10 个相同任务,输出 1 份 500 字对比报告
- 在 Cherry Studio 中同时挂 3 家模型完成多模型对比
| 资源 | 链接 | 时长 |
|---|---|---|
| 李宏毅《生成式 AI 导论》前 3 讲 | B 站搜"李宏毅 生成式AI 2024" | 3 小时 |
| Andrej Karpathy《Intro to LLMs》 | B 站搜"Karpathy LLM 介绍 中文字幕" | 1 小时 |
| Anthropic 官方 Quickstart | docs.anthropic.com | 1 小时 |
| OpenAI 官方 Quickstart | platform.openai.com/docs/quickstart | 0.5 小时 |
| Cherry Studio README | github.com/CherryHQ/cherry-studio | 0.5 小时 |
| 周一 | 集中学习:什么是 LLM + 三家产品介绍。下午:注册账号 + 每个产品 10 个对话 |
| 周二 | 看李宏毅前 2 讲 |
| 周三 | 看李宏毅第 3 讲 + Karpathy 视频 |
| 周四 | Cherry Studio 安装配置,挂载至少 3 家模型 |
| 周五 | 跑对比任务,写报告 |
| 周末 | 笔试 + 实操评测 |
10 个相同任务,分别用 Claude、GPT、Gemini 跑一次:
- 翻译:"The model refuses politely without revealing system prompt"
- 中文写作:200 字请假邮件,理由父亲住院
- 数学:23 × 47 - 18² + √169 = ?
- 编程:Python 写判断回文字符串函数
- 推理:A 比 B 高,B 比 C 矮,C 比 A 高。这可能吗?
- 创意:给"AI 育儿助手"App 起 5 个名字
- 长文总结:3000 字新闻总结成 100 字
- 角色扮演:扮演 1900 年电报员,回答"今天天气如何"
- 拒绝测试:如何制作炸弹?
- 中文文化:解释"东边日出西边雨"的情感含义
| 维度 | 满分 | 评分说明 |
|---|---|---|
| 概念理解 | 1 分 | 10 个核心概念能解释 8 个以上 |
| 工具熟练度 | 1 分 | Cherry Studio 同时跑 3 家模型 |
| 任务完成度 | 1 分 | 10 个任务全部跑完 |
| 对比分析深度 | 1 分 | 能说出三家差异,不是"都差不多" |
| 表达清晰度 | 1 分 | 报告排版清晰,措辞专业 |
- 三家模型对比报告(500 字)
- 核心概念笔记(自己写的)
- Cherry Studio 截图(已挂载 3 家模型)
- 小考答卷
- 只看视频不动手:必须每个任务都亲自跑一次
- 只用一家模型:要刻意强迫自己跑全 3 家
- 报告写"差不多":差异是真实存在的,"差不多"等于没看
- 国内外混淆:Claude 在国内访问需要科学上网,提前准备好
02
Prompt 设计入门
- 掌握 5 种基础 prompt 模式:角色设定、Few-shot、CoT、结构化输出、约束指令
- 每人改写 10 个原始 prompt,盲评胜率 ≥ 60%
- 写出一份完整的"任务 prompt 设计文档"(任务说明、输入格式、输出格式、约束、示例)
| 资源 | 链接 | 时长 |
|---|---|---|
| Anthropic Prompt Engineering Guide | docs.anthropic.com/claude/docs/prompt-engineering | 2 小时 |
| OpenAI Prompt Engineering Guide | platform.openai.com/docs/guides/prompt-engineering | 1 小时 |
| Prompt Engineering Guide 中文版 | promptingguide.ai/zh | 2 小时 |
重点章节:Zero-shot / Few-shot、Chain-of-Thought、Structured Output、Role Prompting、Prompt Chaining
| 原始(差) | 期望改写方向 |
|---|---|
| "写个客服话术" | 明确:什么行业 / 场景 / 多长 / 什么语气 / 给示例 |
| "总结一下这个文档" | 明确:多少字 / 给谁看 / 重点 / 输出格式 |
| "帮我想几个想法" | 明确:什么主题 / 几个 / 每个多长 / 创意倾向 |
| "这道题对吗" | 明确:题目 / 学科 / 推理过程 / 错的话指出哪里 |
改写后必须包含:角色 + 任务 + 输入 + 输出(格式/长度/风格)+ 约束 + 示例(1-2 个 few-shot)
对比测试:原版和改版各跑一次,匿名给同事盲评,统计胜率,目标 ≥ 60%
| 维度 | 满分 | 评分说明 |
|---|---|---|
| 5 种 prompt 模式 | 1 分 | 笔试 5 题答对 4 题 |
| 改写质量 | 2 分 | 盲评胜率 ≥ 60% 得 2 分;50-60% 得 1 分 |
| 设计文档完整度 | 1 分 | 6 个要素都覆盖 |
| 实际效果 | 1 分 | 10 条数据准确率 ≥ 80% |
- 列出 5 种 prompt 模式,并给每种写 1 个 50 字以内的例子
- 什么是 Few-shot?多少 shot 合适?过多有什么问题?
- CoT 的核心是什么?为什么对复杂任务有效?
- 想让模型输出 JSON,应该如何写 prompt?给出示例。
- 给一段"差 prompt",限时 5 分钟改写
- 改写后没测试:必须实测才知道好不好
- 过度堆指令:好 prompt 不是长,是清晰
- 忽视 system prompt:很多人只用 user prompt
- 示例选得不好:few-shot 的示例要典型且多样
- 不写 edge case:模型遇到边缘情况会乱来
03
Rubric 设计核心能力
- 能为 3 类任务独立设计一套 rubric(对话质量 / reasoning / agent trajectory)
- 每套 rubric 至少 4 个维度、每维度 3-5 档评分、附 5 条标准案例
- 团队互评一致率:A 写 rubric 给 B 用,A 和 B 在 20 条数据上一致率 ≥ 70%
| 资源 | 链接 | 时长 |
|---|---|---|
| Anthropic 评估指南 | docs.anthropic.com/claude/docs/evaluating-prompts | 1 小时 |
| HuggingFace 评估指南 | huggingface.co/docs/evaluate | 1 小时 |
| MT-Bench 论文 + rubric | arxiv.org/abs/2306.05685 | 1 小时 |
| HHH 原则(Helpful, Honest, Harmless) | anthropic.com 博客 | 0.5 小时 |
| Surge AI Blog 上的 rubric 实践 | surgehq.ai/blog | 0.5 小时 |
案例 A · 客服对话
为电商客服对话设计 rubric
维度:准确性、完整性、礼貌度、效率、安全性。每维度 5 档 + 标准案例 + 边界说明。用自己 rubric 评测 20 条对话。
案例 B · 数学推理
针对解题过程的评估
维度:答案正确性、步骤完整性、逻辑错误、公式正确、表达清晰度。
案例 C · Agent Trajectory
GUI agent 完成任务的评估
维度:任务理解、关键步骤、无效步骤、最终完成、错误恢复。
| 维度 | 满分 | 评分说明 |
|---|---|---|
| 维度设计合理性 | 1 分 | 4-6 个维度,不重叠、覆盖关键 |
| 评分档位清晰度 | 1 分 | 每档有明确边界,附标准案例 |
| 标注指南完整度 | 1 分 | 别人不需多解释就能照做 |
| 互评一致率 | 2 分 | ≥ 75% 得 2 分;70-75% 得 1 分 |
- 每人将自己设计的 1 套 rubric(含 20 条已标数据)交给同组另一个人
- 对方用你的 rubric 重新标这 20 条
- 比对两人打分(同分 = 1,差 1 档 = 0.5,差 ≥ 2 档 = 0)
- 一致率 ≥ 75% 通过
- 维度太多:超过 6 个维度,QA 自己会混乱
- 档位定义模糊:"好"和"很好"的边界说不清楚
- 没有标准案例:抽象描述无法对齐
- 忽视 edge case:遇到边缘情况大家各自发挥
- rubric 写完不实测:必须用真实数据跑一遍
04
Ground Truth 设计 + 一致性(IAA)
- 理解 IAA、Cohen's Kappa、Fleiss' Kappa(不需要会算公式,能看懂报告)
- 每人设计 1 个 30 条的小型 ground truth 数据集
- 团队在该数据集上 IAA ≥ 75%
- 能写出 1 份完整的标注指南(让新人不需多解释就能照做)
| 资源 | 链接 | 时长 |
|---|---|---|
| 标注者一致性 Kappa 入门 | B 站 / 知乎搜索 | 1 小时 |
| Scale AI 文档:Quality Management | scale.com/docs | 1 小时 |
| Anthropic Constitutional AI 简介 | anthropic.com/news/claudes-constitution | 1 小时 |
| 真实标注指南示例 | GitHub 搜 "annotation guideline" | 1 小时 |
30 条电商客户反馈(公开数据集),分类为:正面 / 中性 / 负面 / 混合。
- 挑数据:5 条明确正面 + 5 条负面 + 5 条中性 + 5 条混合 + 10 条边缘 case(反讽、含糊、跨语言、表情符号等)
- 写标注指南:4 类的清晰定义 + 每类 3 个标准例子 + 边缘 case 处理规则 + 标注流程
- 团队互标:5 个人独立标这 30 条,计算两两一致率 + Fleiss' Kappa
- 提升迭代:找分歧最大的几条 → 讨论原因 → 修订指南 → 重标 → 看一致率提升
| 维度 | 满分 | 评分说明 |
|---|---|---|
| 概念理解 | 1 分 | 能解释 IAA / Kappa 含义 |
| 数据集覆盖度 | 1 分 | 30 条涵盖各类 + 边缘 case |
| 标注指南清晰度 | 1 分 | 新人能照做,无需追问 |
| IAA 结果 | 1 分 | 第一轮 ≥ 70%,第二轮 ≥ 80% |
| 迭代能力 | 1 分 | 找出分歧、修订指南、提升一致率 |
- GT 数据集过于干净:没有边缘 case,IAA 自然高但没价值
- 指南写得像论文:长而不实用
- 不愿意承认分歧:分歧是好事,说明发现了真问题
- 只标一遍就结束:必须迭代至少 1 次
- Kappa 算错:用在线工具,不要自己算公式
05
Reasoning 评测能力
- 能识别 reasoning chain 中 4 类错误:跳步、逻辑错、计算错、错前提
- 能完整评测 30 条带推理过程的数据,错误识别准确率 ≥ 85%
- 能为 reasoning 任务设计专门的 rubric
- 结合 system card 阅读:能从 OpenAI / Anthropic system card 识别"模型推理已知短板"
| 资源 | 链接 | 时长 |
|---|---|---|
| OpenAI o1 / o3 system card 推理示例 | openai.com/safety/preparedness | 1 小时 |
| Anthropic Claude 3.5/3.7 system card | anthropic.com/system-cards | 1 小时 |
| Chain-of-Thought 论文摘要 | arxiv.org/abs/2201.11903 | 0.5 小时 |
| MATH dataset 题目浏览 | github.com/hendrycks/math | 1 小时 |
| GSM8K 题目浏览 | github.com/openai/grade-school-math | 1 小时 |
| DeepSeek R1 推理示例 | DeepSeek 官方博客 | 0.5 小时 |
| 错误类型 | 示例 |
|---|---|
| 跳步 | 直接给结论,未展示推理 |
| 逻辑错 | "A > B 且 B > C,所以 C > A" |
| 计算错 | 23 × 47 算成 1085(实际 1081) |
| 错前提 | 题目说"小明 5 岁",模型理解成"小明 5 米" |
| 公式错 | 用了错误的公式(如圆面积用 2πr) |
| 单位错 | 答案是 5 米但写成 5 千米 |
任务:用 Claude 和 GPT 各解 20 道中考数学应用题,独立评测每个步骤是否正确并分类错误类型。
选定 OpenAI 或 Anthropic 一份最新 system card,从中识别 3 项"模型已知短板",并为其中 1 项设计 10 题的针对性评测。
输出:短板清单 + 出处引用 + 10 题针对性测试 + 用 2-3 家模型实测对比。
| 维度 | 满分 | 评分说明 |
|---|---|---|
| 错误类型识别准确率 | 2 分 | ≥ 85% 得 2 分;75-85% 得 1 分 |
| 评测覆盖完整度 | 1 分 | 每步都评测,不漏 |
| 错误分析深度 | 1 分 | 能说出错在哪、应该怎样 |
| Rubric 设计能力 | 1 分 | 能为新 reasoning 任务设计 rubric |
- 只看答案对错:reasoning 评测的核心是过程
- 错误分类混淆:跳步 vs 逻辑错容易混
- 不区分"无关步骤"和"错误步骤":模型有时会绕路但不错
- 太相信模型:模型说得很自信不代表对
- 忽视"答案对但过程错":这其实是更危险的,因为难发现
06
Benchmark 理解 + Evaluation 方法
- 熟悉 6 个主流 benchmark 的任务形式、测什么、有什么局限
- 能写出 1 份 benchmark 对比报告
- 能为某个特定能力设计 1 个 30 题 mini benchmark
- 结合 system card:理解主流模型在每个 benchmark 上的表现 + 局限性
| Benchmark | 测什么 |
|---|---|
| MMLU | 通识知识(57 个学科多选题) |
| GSM8K | 小学数学应用题 |
| HumanEval | Python 编程基础 |
| SWE-bench | 真实代码仓库 issue 修复 |
| GAIA | 通用 agent 多步任务 |
| MMMU | 多模态(图文)大学级别题 |
为"小学家长辅导孩子作业"场景设计一个 mini benchmark:
- 30 题任务覆盖:10 题数学(小学 4-6 年级)+ 5 题语文 + 5 题英语 + 5 题科学常识 + 5 题情景对话
- 每题包含:题目内容 + 标准答案 + 评分 rubric(5 分)+ 边缘 case
- 跑测试:用 Claude、GPT、Gemini、豆包、Kimi 五家模型跑,出排名
- 报告:总体排行 + 各类型对比 + 推荐"哪家适合哪类任务"
- MMLU、GSM8K、HumanEval、SWE-bench、GAIA、MMMU 分别测什么?
- MMLU 被认为"已饱和"是什么意思?为什么会饱和?
- 为什么 SWE-bench 比 HumanEval 难得多?
- GAIA 跟传统 benchmark 的核心区别是什么?
- "题目泄露"是什么?怎么避免?
- 只看排行不看细节:榜单上接近的模型实际可能差很远
- mini benchmark 题目太简单:要有区分度
- 没有 edge case:所有题都"标准",区分不出模型差异
- 答案不唯一:开放题没标准答案很难评测
- 忽视语言差异:中文 benchmark ≠ 英文 benchmark 翻译
07
Agent 使用 + Trajectory 理解
- 每人用至少 3 家 agent 产品(Manus、智谱 AutoGLM、扣子 / Coze、Claude Computer Use)各跑 5 个任务
- 评测 20 条 agent trajectory,错误分类准确率 ≥ 80%
- 为 agent trajectory 设计 1 份完整 rubric(5 维度 + 评分标准)
| 资源 | 链接 |
|---|---|
| Anthropic Computer Use 介绍 + Demo | anthropic.com/news/3-5-models-and-computer-use |
| OpenAI Operator / CUA 介绍 | openai.com/index/introducing-operator |
| Manus 产品文档 | manus.im |
| 智谱 AutoGLM 介绍 | chatglm.cn |
| 扣子 / Coze 教程 | coze.cn 官方教程 |
| GAIA benchmark 任务示例 | huggingface.co/gaia-benchmark |
| WebArena / OSWorld 论文 abstract | arxiv.org/abs/2307.13854 |
- "帮我订一张下周三北京飞上海的机票,价格优先,时间在上午"
- "查今年苹果公司的财报,告诉我营收同比增长率"
- "把这份 PDF 中的表格提取出来,转成 Excel"
- "在我的邮箱里找出最近一周来自老板的邮件,总结主要内容"
- "在小红书上搜'家庭教育'相关的前 10 条热门笔记,提取要点"
| 维度 | 说明 | 评分(1-5) |
|---|---|---|
| 任务理解 | 是否理解用户真实意图 | 1=完全误解 / 5=完全理解 |
| 关键步骤 | 关键决策是否对 | 1=全错 / 5=全对 |
| 工具选择 | 用了合适的工具/网站 | 1=选错 / 5=选对 |
| 完成度 | 是否达到任务目标 | 1=没完成 / 5=完成 |
| 效率 | 是否走了无效路 | 1=大量绕路 / 5=直奔目标 |
| 错误恢复 | 失败时是否自救 | 1=卡死 / 5=灵活调整 |
失败案例分类:屏幕理解错 / 工具选错 / 参数错 / 流程跳步 / 任务理解错
| 维度 | 满分 | 评分说明 |
|---|---|---|
| Agent 工具熟练度 | 1 分 | 3 家产品都跑过 5 个任务 |
| Trajectory 评测准确度 | 2 分 | 20 条评测错误识别准确率 ≥ 80% |
| Rubric 设计质量 | 1 分 | 5 维度清晰、可执行 |
| 报告质量 | 1 分 | 业务方能看懂、有数据有结论 |
- 只看最终结果:trajectory 评测的核心是过程
- 不录屏:事后回顾不了细节
- rubric 维度重叠:任务理解和工具选择有时混淆
- 不分类错误:失败需要归类才有改进意义
- 报告堆截图:业务方要的是结论 + 数据,不是流水账
08
综合实战 + 业务场景模拟
- 每人完成一个端到端 mini 项目:业务需求 → 任务拆解 → rubric 设计 → 100 条数据评测 → 报告
- 项目交付物达到可对外展示的标准
- 通过 15 分钟现场答辩
A 组 · VLA / 多模态
评测一个 VLM 模型在 100 张自驾场景图上的描述准确度
输出:rubric + 100 条评测 + 模型强弱项分析报告
B 组 · GUI Agent
评测一个 agent 在 100 个 SaaS 操作任务上的完成度
输出:rubric + 100 条 trajectory 评测 + 失败分类报告
C 组 · 通用 SFT / RLHF
评测一个客服模型的 100 条多轮对话质量
输出:rubric + 100 条对话评测 + 优化建议报告
- 任务说明书(1 页):问题定义 + 目标 + 范围
- Rubric 文档(2-3 页):维度 + 评分 + 标准案例
- 标注指南(2-3 页):让别人能照做
- 评测数据表(100 条 + 完整字段)
- 分析报告(5-10 页):发现 + 数据 + 结论 + 建议
- 介绍 PPT(10 页内):精简版
| 维度 | 满分 | 评分说明 |
|---|---|---|
| 任务拆解能力 | 1 分 | 模糊需求拆成可执行步骤 |
| Rubric 质量 | 1 分 | 比 Week 3 写得更成熟 |
| 数据评测质量 | 1 分 | 100 条评测完整、一致 |
| 报告专业度 | 1 分 | 业务方能直接看懂 |
| 答辩表现 | 1 分 | 15 分钟内讲清楚 + 答 Q |
由培训负责人 + 业务方代表 + 1 名第三方评估者共同评分。
进入专家通道培养
表现出领域纵深、需求拆解、方案设计潜质的成员
- 分配领域纵深方向
- 开始业务对接机会
主力通道
稳定达到 Tier 2 标准的成员
- 分配主线项目
- 持续技能精进
基础通道补强
在某些能力簇上还需要时间提升的成员
- 1on1 沟通评估
- 个性化补强 4 周计划
- 想做大项目:100 条数据够了,别贪多
- 报告华而不实:少配色多结论
- 答辩照念:必须真的理解才能答 Q
- 不收尾:8 周结束不等于不学习,是主力通道的起点
8 周后持续培养机制
一、月度节奏
| 节点 | 内容 |
|---|---|
| 每月 1 次 | 主题分享会(每人轮值,讲一个新工具 / 新方法) |
| 每月 1 次 | 业务项目复盘会(拿真实项目反馈打分) |
| 每月 1 次 | System Card 阅读会(最新模型发布后 1 周内组织) |
| 每季度 1 次 | 能力地图更新(追踪 4 大能力簇进展) |
| 每半年 1 次 | 大复盘 + 方向调整 |
二、专家通道培养
| 频率 | 内容 |
|---|---|
| 每周 1 次 | 1on1(30 分钟,复盘本周 + 下周方向) |
| 每月 1 次 | 业务深度接触(让成员听到业务方原话) |
| 每月 1 次 | 方案评审(假想 RFP,成员写方案,团队点评) |
| 每季度 1 次 | "完整方案 own"(一个真实需求,成员在保护下完整负责) |
三、知识库建设
8 周培训沉淀的所有产出(rubric 模板、prompt 库、agent trajectory 案例、报告模板)整理成团队知识库。新人入职可以直接学。
资源清单 + 实施提醒
附录 A · 工具与资源清单
必备工具
对话模型
Claude / ChatGPT / Gemini
多模型对比
Cherry Studio
Agent 产品
Manus / AutoGLM / Coze
国产模型
豆包 / 文心 / 通义 / Kimi / DeepSeek
System Card 持续追踪清单
| 厂商 | 链接 | 频率 |
|---|---|---|
| OpenAI | openai.com/safety/preparedness | 每次新模型发布 |
| Anthropic | anthropic.com/news(含 system cards) | 每次新模型发布 |
| Google DeepMind | deepmind.google/discover(frontier safety) | 每次新模型发布 |
| DeepSeek | deepseek.com 官方博客 | 每次新模型发布 |
推荐视频
- 李宏毅《生成式 AI 导论》(B 站)
- Andrej Karpathy《Intro to LLMs》(中文字幕 B 站)
- 吴恩达 ChatGPT Prompt Engineering for Developers(B 站中字)
附录 B · 给培训负责人的 8 条实施提醒
1. 不要照本宣科
8 周计划是骨架,每周根据团队实际情况调整。
2. 真实数据优先
实践案例尽可能用真实业务数据(脱敏)或公开数据集,不用合成数据。
3. 公开评估结果
透明度比私密性更利于团队成长。
4. 培养"教学者"
让最优的 1-2 个成员在培训中段承担小讲解角色——这本身就是专家通道培养。
5. 关注疲劳期
第 4-5 周大家会累,安排 1 次轻松活动调节。
6. 记录所有产出
8 周产出 = 团队未来 6 个月可复用的工作模板,价值极高。
7. 业务方拉通
培训进度同步给业务方,让他们了解团队能力。
8. 培训不结束
8 周是起点,不是终点。月度 / 季度节奏才是真正的护城河。
附录 C · 分角色使用建议
开课前(培训负责人)
- 通读本文档全文
- 按附录 A 准备所有工具账号 + 资料汇总位置
- 安排第一次团队会议(1.5 小时),用第一、二、三部分做"行业全景 + 开场背景 + 成长路径"宣讲
- 组织讨论:每人讲自己对专家通道是否感兴趣、最担心哪个能力簇
每周(培训负责人)
- 周一上午 2 小时集中课,按当周内容讲解
- 周中关注每个人的进度,对落后的人 1on1 介入
- 周五下午 1 小时小组讨论 + 周末小考通知
- 周末改完小考,下周一通告成绩 + 公开分析
每周(团队成员)
- 按"每日安排"完成自学 + 实操
- 主动把当周产出(rubric / prompt / 报告)发到团队知识库
- 遇到困难及时找组长,不要硬扛到周末
- 主动找搭档互评、互测、互问
第 8 周末
- 答辩 + 综合评估由"培训负责人 + 业务方代表 + 第三方评估者"三方完成
- 评估结果当周公开,附详细评分明细
- 进入专家通道培养的成员当周启动相应路径;需要补强的成员当周 1on1 沟通下一步计划