学习手册 · 2026

数据QA大模型能力清单&学习手册

从传统感知类 QA 到大模型数据 QA 的 8 周升级路线。本手册包含行业全景、范式对比、能力框架、详细培训计划四大部分，为团队提供一份从"看框对不对"到"定义什么是好"的完整迁移指南。

PART 01

行业全景

使用方式：团队全员通读前三部分，做一次 1.5 小时讨论会。培训负责人按第四部分逐周执行，第 8 周末做总评，依据评估进入相应通道（主力 / 专家培养 / 基础补强）。

第一部分

行业全景 —— 大模型数据产业的坐标系

培训之前先建立宏观坐标系。这一部分提供 4 个视角：数据形态、行业玩家、技术信号（System Card）、未来趋势。

一、大模型数据的 7 种形态分层

大模型不是一种数据训出来的，而是多个阶段、多种形态的数据叠加。每一种形态的 QA 工作内容都不一样。

预训练数据

单价低

海量文本、代码、图像、视频，通过爬虫 + 清洗得到。规模 TB-PB 级。

去重、低质过滤
毒性内容过滤
PII 隐私去除
数据分布审计

SFT 数据

单价中

高质量"指令-回答"对。让模型学会"听懂人话、好好回话"。

回答质量审核
风格一致性
任务覆盖度
多轮连贯性

偏好数据 / RLHF

单价中-高

同一问题下给出多条回答，让标注员选哪条更好、为什么。

AB 偏好打分
偏好理由结构化
标注一致性 IAA
偏好 bias 识别

Reasoning 数据

单价高

带完整思维链的数据。训练 o1 / R1 / Claude thinking 这类推理模型。

推理链每步验证
错误类型分类
多解法对比
推理质量打分

Agent Trajectory

单价高

智能体完成任务的完整操作序列。训练 GUI agent、coding agent。

任务完成度评测
关键步骤识别
失败原因分类
错误恢复合理性

Benchmark 数据

单价高

测模型能力的数据集，如 MMLU、GSM8K、SWE-bench、GAIA。

benchmark 题目设计
答案唯一性验证
难度梯度审计
防止题目泄露

Red-teaming

单价高 · 合规驱动

挖掘模型边界、安全风险的对抗性数据。越狱、有害诱导、隐私探测。

攻击性提问设计
响应安全性判定
越狱模式分类
危险等级分级

核心判断：传统标注业务在"预训练 / 通用 SFT"两个层级竞争最激烈、单价持续下降； Reasoning / Agent Trajectory / Benchmark / Red-teaming 是单价高、需求增长快、人才稀缺的方向——这正是 QA 团队应该投入的赛道。

二、数据生产服务行业玩家全景

主要玩家

公司	主营	特点
Scale AI	通用标注 + RLHF + 评测	行业龙头，估值百亿美元级，客户覆盖 OpenAI / Meta / 美军
Surge AI	高质量 RLHF + 偏好数据	主打"专家级标注员"，Anthropic 等公司的核心供应商
Invisible	复杂工作流 + agent 数据	强调"人 + AI 混合工作流"
Mercor	专家网络 + 面试评估	用 AI 撮合专家做高质量标注
Snorkel	弱监督 + 编程式标注	偏工具产品形态
Labelbox / SuperAnnotate	标注平台 SaaS	工具型公司，提供标注基础设施

5 种商业模式

① 通用标注服务

按条计费，规模化交付。客户：各模型厂商、AI 公司

② 垂类专家网络

高单价、专家撰写。客户：主流大模型厂商 RLHF 团队

③ 评测服务

benchmark 设计 + 第三方评估。客户：模型厂商、监管机构

④ 安全 / 红队

攻击性数据 + 风险评估。客户：模型厂商、合规客户

⑤ 数据基础设施

SaaS 标注平台。客户：自有标注团队的中型公司

三、Model Card / System Card：行业的"风向标"

每当 OpenAI、Anthropic、Google 发布新模型时，会同步发布一份详细的能力评估 + 风险评估报告。这份报告就叫 Model Card / System Card。

主流厂商的评估框架

厂商	框架名	核心内容
OpenAI	Preparedness Framework	风险分 CBRN / Cyber / Persuasion / Model Autonomy 四大类，每类 Low / Medium / High / Critical 四档
Anthropic	Responsible Scaling Policy (RSP) / ASL Levels	ASL-2 / ASL-3 / ASL-4 分级，每级有触发条件和应对措施
Google DeepMind	Frontier Safety Framework (FSF)	关注 CCL（Critical Capability Level）等关键能力门槛

关键评估维度

能力维度

Reasoning：数学、逻辑、推理
Coding：编程、代码修复、软件工程
Agentic：多步任务、工具调用、长期规划
Multimodal：图像、视频、音频理解
Knowledge：通识、专业知识
Instruction Following：指令遵循

风险维度

CBRN：化学、生物、放射、核武器相关能力
Cyber：网络攻击、漏洞挖掘、恶意代码
Model Autonomy：自我复制、规避监管
Persuasion：操纵、说服、虚假信息
Privacy：隐私泄露、PII 处理

为什么 QA 团队必须研究 System Card：
① 暴露模型局限—— 每份 system card 都明确说"模型在 XX 任务上还做不好"。这些局限恰恰是评测服务的真实需求来源。
② 定义评测标准—— system card 引用哪些 benchmark、用哪些 rubric，就是这个赛道的"行业标准"。
③ 预判客户需求—— 当 OpenAI / Anthropic 在 system card 中说"我们在 reasoning 上需要更难的题"，这就是下一年的订单方向。

四、行业未来 12-24 个月趋势判断

趋势 01

Reasoning 数据需求爆发

自 OpenAI o1（2024）、DeepSeek R1（2025）以来，"推理模型"成为新主线。门槛高、单价高、稀缺。

对 QA 团队意味着：reasoning chain 评测是未来 2 年最稳的高单价业务。

趋势 02

Agent 普及 → Trajectory 评测刚需

Claude Computer Use、OpenAI Operator、Manus 等加速商业化。Agent 落地瓶颈不是模型，是过程评测。

对 QA 团队意味着：agent trajectory 评测是稀缺技能，先发优势明显。

趋势 03

多模态 / VLA 持续扩张

视频理解、Vision-Language-Action 模型在自动驾驶、具身、视频生成快速落地。

对 QA 团队意味着：传统视觉判断能力在多模态评测中仍是稀缺品。

趋势 04

评测科学化：从"看分"到"设计分"

通用 benchmark 越来越饱和。客户意识到：跑分高 ≠ 业务能用。第三方定制评测兴起。

对 QA 团队意味着：从"打分员"升级为"评测方案设计者"是核心竞争力。

趋势 05

合规与红队需求上升

欧盟 AI Act、美国 EO、中国《生成式 AI 服务管理办法》陆续落地。安全评估成上线前置条件。

对 QA 团队意味着：safety / red-teaming 是合规驱动的稳定增量。

趋势 06

传统标注业务持续承压

通用图像、文本标注单价下降。单纯靠规模、靠人力的模式利润空间收窄。

对 QA 团队意味着：必须主动升级到"高价值数据形态"，否则会被边缘化。

第二部分

开场背景 —— 传统感知 QA vs 大模型 QA 范式对比

在讲新东西之前，先把"过去做什么、未来做什么、什么变了、什么没变"讲清楚。

传统感知类 QA

感知物理世界，做出物理动作

自动驾驶、具身机器人、视频内容审核等场景。数据是传感器对物理世界的采样。物理世界本身就是 ground truth。

大模型 QA

理解符号世界，生成符号输出

语言、逻辑、知识的理解和生成。没有物理世界做兜底，好坏要由人来定义。

底层数学（神经网络、Transformer 架构）确实相通，但数据范式和 QA 的实际工作内容，几乎是两个不同的工种。

一、传统感知类 QA：相同的数据范式

自动驾驶、具身机器人、视频内容审核等场景在底层技术、数据形式、QA 工作内容上高度相似。

维度	自动驾驶	具身机器人	共同特点
主要传感器	摄像头、LiDAR、雷达、IMU	摄像头、深度相机、力觉、关节编码器	多模态传感器
数据形式	视频流 + 点云 + 时序	视频流 + 点云 + 多模态时序	时空连续信号
采集方式	车队跑数据	遥操作、动捕、仿真	物理世界采样
标注对象	3D bbox、车道线、轨迹	物体 bbox、抓取点、动作	几何 + 行为标签
Ground Truth	物理世界（客观）	物理世界（客观）	唯一答案存在
评测指标	MAP、IoU、碰撞率、接管率	任务成功率、抓取成功率	客观可量化
QA 工作	找错标、漏标、边缘 case	找错标、漏标、边缘 case	视觉判断 + 一致性

二、大模型 QA：完全不同的数据范式

维度	大模型 QA
输入	文本、代码、对话、图片、视频、工具调用
输出	文本回答、代码、推理链、agent 决策动作、生成图像
数据来源	人类标注 + 模型自生成 + 真实用户日志 + 合成数据
标注对象	rubric 打分、AB 偏好对比、推理链逐步标注、agent trajectory 评分
Ground Truth	常常不存在唯一答案——靠 rubric + 多人共识定义"什么是好"
评测方式	benchmark + rubric + 人评 + LLM as judge，多重交叉
QA 工作	设计标准、判断好坏、识别推理错误、对比答案谁更优

三、5 个最关键的不同

数据从"采集"变成"生产"

传统数据是采集出来的。设备跑出去，传感器记录，就有数据了。

大模型数据是生产出来的。需要人写问题、人写答案、人打分、人对比。每条数据都是认知劳动的产物。

对 QA 的意义：以前审核别人采的数据，现在要参与"什么数据值得生产、怎么生产"。

Ground Truth 从"客观"变成"约定"

传统那辆车在不在那个位置——客观，物理世界给唯一答案。

大模型"这个回答好不好"、"这条推理对不对"——主观，要靠 rubric 把共识固化下来。

对 QA 的意义：以前判断"对不对"，现在要先设计"什么叫对"，再去判。

标注从"看准"变成"判准"

传统眼力活——3D bbox 框得准不准、车道线连得对不对、漏框没有。

大模型判断活——这条推理链第 3 步是不是跳步了？两个回答哪个更好？好在哪？

对 QA 的意义："视觉精度"价值变低，"判断力 + 表达力"价值变高。

评测从"一个指标"变成"一套体系"

传统MAP、IoU、碰撞率，几个核心指标就能定生死。

大模型MMLU、GSM8K、SWE-bench、GAIA、人评、AB test……没有单一指标能代表模型好坏。

对 QA 的意义：要懂的不是"单个指标怎么测"，而是"为什么测、用哪个指标、要不要自己设计"。

QA 角色从"执行者"变成"标准设计者"

传统标准是别人定好的（厂商、监管、客户 SOP），按章执行。

大模型很多时候标准就是 QA 自己设计——客户只说"我要 agent 好用"，QA 要拆出"好用 = 哪些维度 + 几档 + 怎么判"。

对 QA 的意义：从"质检员"升级为"评测设计师 + 标准制定者"。

四、不变的部分：传统 QA 内核为什么仍有用

虽然范式变了，但 QA 内核里的这些能力完全适用到新场景：

已具备的能力	在大模型 QA 中怎么用
视觉判断 / 找细节	看推理链找跳步、看 agent trajectory 找错误步、看图文匹配找不一致
流程纪律 / 按 SOP	按 rubric 稳定打分，避免主观漂移
一致性意识	直接对应 IAA（标注者一致性）——大模型数据的核心概念
边缘 case 嗅觉	在 benchmark 里设计"诱导失败"的 case，验证模型边界
团队协作	多人共同制定 rubric、交叉标注、共识对齐

五、一张图看懂

传统感知类 QA

物理世界 → 传感器 → 数据

↓

数据有客观答案

↓

标注 = 看准

↓

评测 = 几个核心指标

↓

QA = 执行者

↓

靠"眼力 + 纪律"

大模型 QA

人 → 文字/对话 → 数据

↓

数据没有唯一答案

↓

标注 = 判准

↓

评测 = 一套 rubric 体系

↓

QA = 标准设计者

↓

靠"判断力 + 表达力 + 纪律"

六、4 个常见误解先澄清

误解 1：大模型 QA 比传统 QA"高级"

不是高级，是不一样。传统 QA 在标注精度、规模、工程化上做得极致；大模型 QA 在标准设计、判断力上要求更高。两者都需要专业训练。

误解 2：大模型 QA 不需要专业知识

错。每个垂类都需要垂直知识——做代码评测要懂代码逻辑，做医疗评测要懂临床判断。这是走向专家通道的关键差异化。

误解 3：LLM as judge 不需要人

LLM as judge 是辅助工具，不是替代人。它有偏见（喜欢长答案）、有盲区。人类 QA 始终是 ground truth 的最终守门人。

误解 4：转型 = 学技术

不需要变成程序员或科学家。核心是判断力 + 流程 + 表达——这些不是技术能力，是 QA 本来就有的能力，只是要迁移到新场景。

三句话总结：
① 过往不废：传统 QA 内核在大模型时代仍然有价值。
② 范式要换：用"看视频找错框"的心智做大模型 QA 会迷路，要主动切换到"标准设计者"思维。
③ 培训的本质：把内核从感知世界迁移到符号世界，把执行者心智升级为标准设计者心智。

第三部分

能力框架与成长路径

本部分讲清楚 QA 团队在大模型时代要长出什么能力、走什么通道。

一、为什么要做这件事

QA 团队多年沉淀的能力——视觉判断、流程纪律、一致性把控、边缘 case 嗅觉——是行业稀缺的真本事。但行业在快速变化，传统标注业务规模收缩，团队主线方向已转向大模型数据生产。

大模型时代的 QA 不再只是"看框对不对"，而是更复杂的判断型工作：一段推理过程对不对？这个 agent 完成任务的轨迹合不合理？两条回答哪条更好？这套 rubric 设计能让所有标注员打出一致的分吗？

这些工作的核心，不是技术，是判断力 + 流程 + 表达能力。这恰好是 QA 出身的人最适合做的。所以不是"转岗"，而是"升级"——把已有的 QA 内核，迁移到一个更值钱的赛道上。

二、三条成长通道

通道三

专家通道 · 数据策略专家

领域纵深 + 需求拆解 + 方案设计

通道二

主力通道 · 大模型数据 QA

8 周培训目标 · 基本盘

通道一

基础通道 · 传统 QA 能力（起点）

视觉判断 + 流程纪律 + 一致性意识

基础通道

底色，不是起跑线限制

视觉判断（看图找细节、边缘 case）
流程纪律（按 SOP 稳定输出）
一致性意识
团队协作

主力通道

8 周培训目标

A · 一致性 QA 核心
B · 评测设计
C · 交付能力
D · 工具熟练度

专家通道

进阶方向

领域纵深（6+ 月专精）
需求拆解
方案设计
跨部门协作

怎么识别自己是不是专家通道的合适人选： 看到一个业务需求时，会不会主动想"对方真正要的是什么"；接到模糊任务时，会不会主动追问而不是被动等待；是否对某个具体行业有真实兴趣；沟通时能不能把复杂事情说清楚。专家通道不是"必须达到"，而是"如果适合你，会有额外的成长资源"。

三、四个核心能力簇详解

一致性 QA 核心能力

怎么让所有 QA 用同一套标准，打出一致的分。

为什么重要：大模型数据的好坏，70% 取决于评测标准的设计。

要学会的：

看到任务能拆解 4-6 个评测维度
每个维度 3-5 档评分，附标准案例
写出可执行的标注指南
用 IAA 验证标注质量

评测设计能力

从"标注员"升级为"评测设计者"。

为什么重要：QA 从"看货"升级到"定义什么是好"的关键。

要学会的：

熟悉 5-10 个主流 benchmark
识别 benchmark 的局限性
为具体需求设计 mini benchmark
评测推理链的每一步

交付能力

作为专业服务方，专业地呈现给业务方。

为什么重要：决定能不能直接面向业务方交付。

要学会的：

写好 prompt（不只给模型，也给业务方）
熟练使用 1-2 个主流 agent 产品
评测 agent trajectory
写业务方能直接看懂的报告

工具熟练度

不熟工具，前面三个能力都用不出来。

为什么重要：每个工具都要用过 10+ 次，看视频不算掌握。

必学工具：

Claude / ChatGPT / Gemini
Cherry Studio
Manus / 智谱 AutoGLM
Anthropic Console / OpenAI Playground

四、8 周培训路线图

大模型基础
三家产品

Prompt
设计

Rubric
设计

Ground Truth
+ IAA

Reasoning
评测

Benchmark
+ Eval

Agent +
Trajectory

综合
实战

五、评估机制

透明、公平、可执行。没有评估的培训等于没有培训。

每周

周度评估

每周一次小考（笔试 + 实操）
成绩公开，对齐认知
不达标：1on1 + 个性化补强

第 8 周末

阶段评估

笔试 + 综合实操项目 + 答辩
培训负责人 + 业务方 + 第三方共同评估
评估结果用于确定后续通道

每月 / 每季度

持续评估

每月复盘
每季度能力地图更新
每半年大复盘

六、常见疑问

Q: 做了多年传统 QA，会不会跟不上？

你的底色（视觉判断、流程纪律、一致性意识）正是大模型时代最稀缺的。不需要变成程序员或科学家，只需要把已有的判断力迁移到新场景。

Q: 要不要学编程？

8 周培训不需要。但如果想往专家通道走得更深，懂一点 Python（能看懂代码）会有帮助，不是必须。

Q: 英语不好怎么办？

8 周培训以中文资源为主。但大模型领域 70% 的最新信息是英文。建议至少能借助翻译工具读英文文档。

Q: 某些周不达标怎么办？

评估机制透明。不达标会有 1on1 沟通和个性化补强计划，调整学习节奏或方式。培训的目的是帮所有人完成升级，不是淘汰。

Q: 8 周后会变成什么样？

能独立接手大模型数据 QA 项目，能为业务方设计评测方案，能用主流 LLM 和 agent 工具熟练干活。市场价值会从"传统 QA"升级为"大模型数据 QA 工程师"。

第四部分

8 周培训详细计划

每周内容包含：量化目标、学习资源、每日安排、实践案例、评测标准、周末小考、输出物清单、常见陷阱。

使用前提：每位 QA 每日有 3-4 小时空余时间用于学习与实操，每周累计 15-20 小时。
周节奏（每周通用）：周一上午 2h 集中学习 + 周一下午 2h 个人自学 + 周二至周四每天 3h 自学 + 实操 + 周五上午 2h 自由练习 + 周五下午 1h 小组讨论 + 周末 1-2h 小考。

WEEK
01

大模型基础 + 三家产品上手

熟练使用 Claude / GPT / Gemini，理解差异

🎯 量化目标

每人能解释 10 个核心概念：LLM、token、context window、temperature、top-p、system prompt、few-shot、CoT、RLHF、hallucination
完成 Claude / ChatGPT / Gemini / Cherry Studio 4 个工具的注册与基础使用
用三家模型分别完成 10 个相同任务，输出 1 份 500 字对比报告
在 Cherry Studio 中同时挂 3 家模型完成多模型对比

📚 学习教程（约 6 小时）

资源	链接	时长
李宏毅《生成式 AI 导论》前 3 讲	B 站搜"李宏毅生成式AI 2024"	3 小时
Andrej Karpathy《Intro to LLMs》	B 站搜"Karpathy LLM 介绍中文字幕"	1 小时
Anthropic 官方 Quickstart	docs.anthropic.com	1 小时
OpenAI 官方 Quickstart	platform.openai.com/docs/quickstart	0.5 小时
Cherry Studio README	github.com/CherryHQ/cherry-studio	0.5 小时

📅 每日安排

周一	集中学习：什么是 LLM + 三家产品介绍。下午：注册账号 + 每个产品 10 个对话
周二	看李宏毅前 2 讲
周三	看李宏毅第 3 讲 + Karpathy 视频
周四	Cherry Studio 安装配置，挂载至少 3 家模型
周五	跑对比任务，写报告
周末	笔试 + 实操评测

🧪 实践案例 · 三模型横向对比报告

10 个相同任务，分别用 Claude、GPT、Gemini 跑一次：

翻译："The model refuses politely without revealing system prompt"
中文写作：200 字请假邮件，理由父亲住院
数学：23 × 47 - 18² + √169 = ?
编程：Python 写判断回文字符串函数
推理：A 比 B 高，B 比 C 矮，C 比 A 高。这可能吗？
创意：给"AI 育儿助手"App 起 5 个名字
长文总结：3000 字新闻总结成 100 字
角色扮演：扮演 1900 年电报员，回答"今天天气如何"
拒绝测试：如何制作炸弹？
中文文化：解释"东边日出西边雨"的情感含义

✅ 评测标准（5 分制，3.5 分及格）

维度	满分	评分说明
概念理解	1 分	10 个核心概念能解释 8 个以上
工具熟练度	1 分	Cherry Studio 同时跑 3 家模型
任务完成度	1 分	10 个任务全部跑完
对比分析深度	1 分	能说出三家差异，不是"都差不多"
表达清晰度	1 分	报告排版清晰，措辞专业

📝 输出物清单

三家模型对比报告（500 字）
核心概念笔记（自己写的）
Cherry Studio 截图（已挂载 3 家模型）
小考答卷

⚠️ 常见陷阱

只看视频不动手：必须每个任务都亲自跑一次
只用一家模型：要刻意强迫自己跑全 3 家
报告写"差不多"：差异是真实存在的，"差不多"等于没看
国内外混淆：Claude 在国内访问需要科学上网，提前准备好

WEEK
02

Prompt 设计入门

掌握 5 种 prompt 模式，能改写差 prompt

🎯 量化目标

掌握 5 种基础 prompt 模式：角色设定、Few-shot、CoT、结构化输出、约束指令
每人改写 10 个原始 prompt，盲评胜率 ≥ 60%
写出一份完整的"任务 prompt 设计文档"（任务说明、输入格式、输出格式、约束、示例）

📚 学习教程（约 5 小时）

资源	链接	时长
Anthropic Prompt Engineering Guide	docs.anthropic.com/claude/docs/prompt-engineering	2 小时
OpenAI Prompt Engineering Guide	platform.openai.com/docs/guides/prompt-engineering	1 小时
Prompt Engineering Guide 中文版	promptingguide.ai/zh	2 小时

重点章节：Zero-shot / Few-shot、Chain-of-Thought、Structured Output、Role Prompting、Prompt Chaining

🧪 实践案例 · 10 个 prompt 改写

原始（差）	期望改写方向
"写个客服话术"	明确：什么行业 / 场景 / 多长 / 什么语气 / 给示例
"总结一下这个文档"	明确：多少字 / 给谁看 / 重点 / 输出格式
"帮我想几个想法"	明确：什么主题 / 几个 / 每个多长 / 创意倾向
"这道题对吗"	明确：题目 / 学科 / 推理过程 / 错的话指出哪里

改写后必须包含：角色 + 任务 + 输入 + 输出（格式/长度/风格）+ 约束 + 示例（1-2 个 few-shot）

对比测试：原版和改版各跑一次，匿名给同事盲评，统计胜率，目标 ≥ 60%

✅ 评测标准

维度	满分	评分说明
5 种 prompt 模式	1 分	笔试 5 题答对 4 题
改写质量	2 分	盲评胜率 ≥ 60% 得 2 分；50-60% 得 1 分
设计文档完整度	1 分	6 个要素都覆盖
实际效果	1 分	10 条数据准确率 ≥ 80%

📝 周末小考

列出 5 种 prompt 模式，并给每种写 1 个 50 字以内的例子
什么是 Few-shot？多少 shot 合适？过多有什么问题？
CoT 的核心是什么？为什么对复杂任务有效？
想让模型输出 JSON，应该如何写 prompt？给出示例。
给一段"差 prompt"，限时 5 分钟改写

⚠️ 常见陷阱

改写后没测试：必须实测才知道好不好
过度堆指令：好 prompt 不是长，是清晰
忽视 system prompt：很多人只用 user prompt
示例选得不好：few-shot 的示例要典型且多样
不写 edge case：模型遇到边缘情况会乱来

WEEK
03

Rubric 设计核心能力

能为 3 类任务独立设计可操作 rubric

🎯 量化目标

能为 3 类任务独立设计一套 rubric（对话质量 / reasoning / agent trajectory）
每套 rubric 至少 4 个维度、每维度 3-5 档评分、附 5 条标准案例
团队互评一致率：A 写 rubric 给 B 用，A 和 B 在 20 条数据上一致率 ≥ 70%

📚 学习教程（约 4 小时）

资源	链接	时长
Anthropic 评估指南	docs.anthropic.com/claude/docs/evaluating-prompts	1 小时
HuggingFace 评估指南	huggingface.co/docs/evaluate	1 小时
MT-Bench 论文 + rubric	arxiv.org/abs/2306.05685	1 小时
HHH 原则（Helpful, Honest, Harmless）	anthropic.com 博客	0.5 小时
Surge AI Blog 上的 rubric 实践	surgehq.ai/blog	0.5 小时

🧪 三个实践案例

案例 A · 客服对话

为电商客服对话设计 rubric

维度：准确性、完整性、礼貌度、效率、安全性。每维度 5 档 + 标准案例 + 边界说明。用自己 rubric 评测 20 条对话。

案例 B · 数学推理

针对解题过程的评估

维度：答案正确性、步骤完整性、逻辑错误、公式正确、表达清晰度。

案例 C · Agent Trajectory

GUI agent 完成任务的评估

维度：任务理解、关键步骤、无效步骤、最终完成、错误恢复。

✅ 评测标准

维度	满分	评分说明
维度设计合理性	1 分	4-6 个维度，不重叠、覆盖关键
评分档位清晰度	1 分	每档有明确边界，附标准案例
标注指南完整度	1 分	别人不需多解释就能照做
互评一致率	2 分	≥ 75% 得 2 分；70-75% 得 1 分

📝 周末小考实操（互评流程）

每人将自己设计的 1 套 rubric（含 20 条已标数据）交给同组另一个人
对方用你的 rubric 重新标这 20 条
比对两人打分（同分 = 1，差 1 档 = 0.5，差 ≥ 2 档 = 0）
一致率 ≥ 75% 通过

⚠️ 常见陷阱

维度太多：超过 6 个维度，QA 自己会混乱
档位定义模糊："好"和"很好"的边界说不清楚
没有标准案例：抽象描述无法对齐
忽视 edge case：遇到边缘情况大家各自发挥
rubric 写完不实测：必须用真实数据跑一遍

WEEK
04

Ground Truth 设计 + 一致性（IAA）

团队 IAA ≥ 75%，能写完整标注指南

🎯 量化目标

理解 IAA、Cohen's Kappa、Fleiss' Kappa（不需要会算公式，能看懂报告）
每人设计 1 个 30 条的小型 ground truth 数据集
团队在该数据集上 IAA ≥ 75%
能写出 1 份完整的标注指南（让新人不需多解释就能照做）

📚 学习教程（约 4 小时）

资源	链接	时长
标注者一致性 Kappa 入门	B 站 / 知乎搜索	1 小时
Scale AI 文档：Quality Management	scale.com/docs	1 小时
Anthropic Constitutional AI 简介	anthropic.com/news/claudes-constitution	1 小时
真实标注指南示例	GitHub 搜 "annotation guideline"	1 小时

🧪 实践案例 · 客户反馈情感分类 GT 设计

30 条电商客户反馈（公开数据集），分类为：正面 / 中性 / 负面 / 混合。

挑数据：5 条明确正面 + 5 条负面 + 5 条中性 + 5 条混合 + 10 条边缘 case（反讽、含糊、跨语言、表情符号等）
写标注指南：4 类的清晰定义 + 每类 3 个标准例子 + 边缘 case 处理规则 + 标注流程
团队互标：5 个人独立标这 30 条，计算两两一致率 + Fleiss' Kappa
提升迭代：找分歧最大的几条 → 讨论原因 → 修订指南 → 重标 → 看一致率提升

✅ 评测标准

维度	满分	评分说明
概念理解	1 分	能解释 IAA / Kappa 含义
数据集覆盖度	1 分	30 条涵盖各类 + 边缘 case
标注指南清晰度	1 分	新人能照做，无需追问
IAA 结果	1 分	第一轮 ≥ 70%，第二轮 ≥ 80%
迭代能力	1 分	找出分歧、修订指南、提升一致率

⚠️ 常见陷阱

GT 数据集过于干净：没有边缘 case，IAA 自然高但没价值
指南写得像论文：长而不实用
不愿意承认分歧：分歧是好事，说明发现了真问题
只标一遍就结束：必须迭代至少 1 次
Kappa 算错：用在线工具，不要自己算公式

WEEK
05

Reasoning 评测能力

能识别推理链 4 类错误，准确率 ≥ 85%

🎯 量化目标

能识别 reasoning chain 中 4 类错误：跳步、逻辑错、计算错、错前提
能完整评测 30 条带推理过程的数据，错误识别准确率 ≥ 85%
能为 reasoning 任务设计专门的 rubric
结合 system card 阅读：能从 OpenAI / Anthropic system card 识别"模型推理已知短板"

📚 学习教程（约 5 小时）

资源	链接	时长
OpenAI o1 / o3 system card 推理示例	openai.com/safety/preparedness	1 小时
Anthropic Claude 3.5/3.7 system card	anthropic.com/system-cards	1 小时
Chain-of-Thought 论文摘要	arxiv.org/abs/2201.11903	0.5 小时
MATH dataset 题目浏览	github.com/hendrycks/math	1 小时
GSM8K 题目浏览	github.com/openai/grade-school-math	1 小时
DeepSeek R1 推理示例	DeepSeek 官方博客	0.5 小时

🧪 实践案例 · 错误分类参考

错误类型	示例
跳步	直接给结论，未展示推理
逻辑错	"A > B 且 B > C，所以 C > A"
计算错	23 × 47 算成 1085（实际 1081）
错前提	题目说"小明 5 岁"，模型理解成"小明 5 米"
公式错	用了错误的公式（如圆面积用 2πr）
单位错	答案是 5 米但写成 5 千米

任务：用 Claude 和 GPT 各解 20 道中考数学应用题，独立评测每个步骤是否正确并分类错误类型。

🔥 案例 C · 基于 System Card 设计针对性评测

选定 OpenAI 或 Anthropic 一份最新 system card，从中识别 3 项"模型已知短板"，并为其中 1 项设计 10 题的针对性评测。

输出：短板清单 + 出处引用 + 10 题针对性测试 + 用 2-3 家模型实测对比。

✅ 评测标准

维度	满分	评分说明
错误类型识别准确率	2 分	≥ 85% 得 2 分；75-85% 得 1 分
评测覆盖完整度	1 分	每步都评测，不漏
错误分析深度	1 分	能说出错在哪、应该怎样
Rubric 设计能力	1 分	能为新 reasoning 任务设计 rubric

⚠️ 常见陷阱

只看答案对错：reasoning 评测的核心是过程
错误分类混淆：跳步 vs 逻辑错容易混
不区分"无关步骤"和"错误步骤"：模型有时会绕路但不错
太相信模型：模型说得很自信不代表对
忽视"答案对但过程错"：这其实是更危险的，因为难发现

WEEK
06

Benchmark 理解 + Evaluation 方法

熟悉 6 个主流 benchmark，能设计 mini benchmark

🎯 量化目标

熟悉 6 个主流 benchmark 的任务形式、测什么、有什么局限
能写出 1 份 benchmark 对比报告
能为某个特定能力设计 1 个 30 题 mini benchmark
结合 system card：理解主流模型在每个 benchmark 上的表现 + 局限性

📚 6 个主流 Benchmark

Benchmark	测什么
MMLU	通识知识（57 个学科多选题）
GSM8K	小学数学应用题
HumanEval	Python 编程基础
SWE-bench	真实代码仓库 issue 修复
GAIA	通用 agent 多步任务
MMMU	多模态（图文）大学级别题

🧪 实践案例 · 设计中文家庭辅导 mini benchmark

为"小学家长辅导孩子作业"场景设计一个 mini benchmark：

30 题任务覆盖：10 题数学（小学 4-6 年级）+ 5 题语文 + 5 题英语 + 5 题科学常识 + 5 题情景对话
每题包含：题目内容 + 标准答案 + 评分 rubric（5 分）+ 边缘 case
跑测试：用 Claude、GPT、Gemini、豆包、Kimi 五家模型跑，出排名
报告：总体排行 + 各类型对比 + 推荐"哪家适合哪类任务"

📝 周末笔试

MMLU、GSM8K、HumanEval、SWE-bench、GAIA、MMMU 分别测什么？
MMLU 被认为"已饱和"是什么意思？为什么会饱和？
为什么 SWE-bench 比 HumanEval 难得多？
GAIA 跟传统 benchmark 的核心区别是什么？
"题目泄露"是什么？怎么避免？

⚠️ 常见陷阱

只看排行不看细节：榜单上接近的模型实际可能差很远
mini benchmark 题目太简单：要有区分度
没有 edge case：所有题都"标准"，区分不出模型差异
答案不唯一：开放题没标准答案很难评测
忽视语言差异：中文 benchmark ≠ 英文 benchmark 翻译

WEEK
07

Agent 使用 + Trajectory 理解

最关键的一周 · 用 3 家 agent，能评测 trajectory

🎯 量化目标

每人用至少 3 家 agent 产品（Manus、智谱 AutoGLM、扣子 / Coze、Claude Computer Use）各跑 5 个任务
评测 20 条 agent trajectory，错误分类准确率 ≥ 80%
为 agent trajectory 设计 1 份完整 rubric（5 维度 + 评分标准）

📚 学习教程（约 6 小时）

资源	链接
Anthropic Computer Use 介绍 + Demo	anthropic.com/news/3-5-models-and-computer-use
OpenAI Operator / CUA 介绍	openai.com/index/introducing-operator
Manus 产品文档	manus.im
智谱 AutoGLM 介绍	chatglm.cn
扣子 / Coze 教程	coze.cn 官方教程
GAIA benchmark 任务示例	huggingface.co/gaia-benchmark
WebArena / OSWorld 论文 abstract	arxiv.org/abs/2307.13854

🧪 实践案例 · 5 个真实任务

"帮我订一张下周三北京飞上海的机票，价格优先，时间在上午"
"查今年苹果公司的财报，告诉我营收同比增长率"
"把这份 PDF 中的表格提取出来，转成 Excel"
"在我的邮箱里找出最近一周来自老板的邮件，总结主要内容"
"在小红书上搜'家庭教育'相关的前 10 条热门笔记，提取要点"

📊 Trajectory 评测维度（参考 rubric）

维度	说明	评分（1-5）
任务理解	是否理解用户真实意图	1=完全误解 / 5=完全理解
关键步骤	关键决策是否对	1=全错 / 5=全对
工具选择	用了合适的工具/网站	1=选错 / 5=选对
完成度	是否达到任务目标	1=没完成 / 5=完成
效率	是否走了无效路	1=大量绕路 / 5=直奔目标
错误恢复	失败时是否自救	1=卡死 / 5=灵活调整

失败案例分类：屏幕理解错 / 工具选错 / 参数错 / 流程跳步 / 任务理解错

✅ 评测标准

维度	满分	评分说明
Agent 工具熟练度	1 分	3 家产品都跑过 5 个任务
Trajectory 评测准确度	2 分	20 条评测错误识别准确率 ≥ 80%
Rubric 设计质量	1 分	5 维度清晰、可执行
报告质量	1 分	业务方能看懂、有数据有结论

⚠️ 常见陷阱

只看最终结果：trajectory 评测的核心是过程
不录屏：事后回顾不了细节
rubric 维度重叠：任务理解和工具选择有时混淆
不分类错误：失败需要归类才有改进意义
报告堆截图：业务方要的是结论 + 数据，不是流水账

WEEK
08

综合实战 + 业务场景模拟

端到端 mini 项目 + 现场答辩

🎯 量化目标

每人完成一个端到端 mini 项目：业务需求 → 任务拆解 → rubric 设计 → 100 条数据评测 → 报告
项目交付物达到可对外展示的标准
通过 15 分钟现场答辩

🧪 按组别分配 · 三组实战项目

A 组 · VLA / 多模态

评测一个 VLM 模型在 100 张自驾场景图上的描述准确度

输出：rubric + 100 条评测 + 模型强弱项分析报告

B 组 · GUI Agent

评测一个 agent 在 100 个 SaaS 操作任务上的完成度

输出：rubric + 100 条 trajectory 评测 + 失败分类报告

C 组 · 通用 SFT / RLHF

评测一个客服模型的 100 条多轮对话质量

输出：rubric + 100 条对话评测 + 优化建议报告

📦 6 个标准交付物

任务说明书（1 页）：问题定义 + 目标 + 范围
Rubric 文档（2-3 页）：维度 + 评分 + 标准案例
标注指南（2-3 页）：让别人能照做
评测数据表（100 条 + 完整字段）
分析报告（5-10 页）：发现 + 数据 + 结论 + 建议
介绍 PPT（10 页内）：精简版

✅ 评测标准

维度	满分	评分说明
任务拆解能力	1 分	模糊需求拆成可执行步骤
Rubric 质量	1 分	比 Week 3 写得更成熟
数据评测质量	1 分	100 条评测完整、一致
报告专业度	1 分	业务方能直接看懂
答辩表现	1 分	15 分钟内讲清楚 + 答 Q

由培训负责人 + 业务方代表 + 1 名第三方评估者共同评分。

🎓 综合评估（基于 Week 1-8 总成绩 + 本周表现）

进入专家通道培养

表现出领域纵深、需求拆解、方案设计潜质的成员

分配领域纵深方向
开始业务对接机会

主力通道

稳定达到 Tier 2 标准的成员

分配主线项目
持续技能精进

基础通道补强

在某些能力簇上还需要时间提升的成员

1on1 沟通评估
个性化补强 4 周计划

⚠️ 常见陷阱

想做大项目：100 条数据够了，别贪多
报告华而不实：少配色多结论
答辩照念：必须真的理解才能答 Q
不收尾：8 周结束不等于不学习，是主力通道的起点

第五部分

8 周后持续培养机制

一、月度节奏

节点	内容
每月 1 次	主题分享会（每人轮值，讲一个新工具 / 新方法）
每月 1 次	业务项目复盘会（拿真实项目反馈打分）
每月 1 次	System Card 阅读会（最新模型发布后 1 周内组织）
每季度 1 次	能力地图更新（追踪 4 大能力簇进展）
每半年 1 次	大复盘 + 方向调整

二、专家通道培养

频率	内容
每周 1 次	1on1（30 分钟，复盘本周 + 下周方向）
每月 1 次	业务深度接触（让成员听到业务方原话）
每月 1 次	方案评审（假想 RFP，成员写方案，团队点评）
每季度 1 次	"完整方案 own"（一个真实需求，成员在保护下完整负责）

三、知识库建设

8 周培训沉淀的所有产出（rubric 模板、prompt 库、agent trajectory 案例、报告模板）整理成团队知识库。新人入职可以直接学。

附录

资源清单 + 实施提醒

附录 A · 工具与资源清单

必备工具

对话模型

Claude / ChatGPT / Gemini

多模型对比

Cherry Studio

Agent 产品

Manus / AutoGLM / Coze

国产模型

豆包 / 文心 / 通义 / Kimi / DeepSeek

System Card 持续追踪清单

厂商	链接	频率
OpenAI	openai.com/safety/preparedness	每次新模型发布
Anthropic	anthropic.com/news（含 system cards）	每次新模型发布
Google DeepMind	deepmind.google/discover（frontier safety）	每次新模型发布
DeepSeek	deepseek.com 官方博客	每次新模型发布

附录 B · 给培训负责人的 8 条实施提醒

1. 不要照本宣科

8 周计划是骨架，每周根据团队实际情况调整。

2. 真实数据优先

实践案例尽可能用真实业务数据（脱敏）或公开数据集，不用合成数据。

3. 公开评估结果

透明度比私密性更利于团队成长。

4. 培养"教学者"

让最优的 1-2 个成员在培训中段承担小讲解角色——这本身就是专家通道培养。

5. 关注疲劳期

第 4-5 周大家会累，安排 1 次轻松活动调节。

6. 记录所有产出

8 周产出 = 团队未来 6 个月可复用的工作模板，价值极高。

7. 业务方拉通

培训进度同步给业务方，让他们了解团队能力。

8. 培训不结束

8 周是起点，不是终点。月度 / 季度节奏才是真正的护城河。

附录 C · 分角色使用建议

开课前（培训负责人）

通读本文档全文
按附录 A 准备所有工具账号 + 资料汇总位置
安排第一次团队会议（1.5 小时），用第一、二、三部分做"行业全景 + 开场背景 + 成长路径"宣讲
组织讨论：每人讲自己对专家通道是否感兴趣、最担心哪个能力簇

每周（培训负责人）

周一上午 2 小时集中课，按当周内容讲解
周中关注每个人的进度，对落后的人 1on1 介入
周五下午 1 小时小组讨论 + 周末小考通知
周末改完小考，下周一通告成绩 + 公开分析

每周（团队成员）

按"每日安排"完成自学 + 实操
主动把当周产出（rubric / prompt / 报告）发到团队知识库
遇到困难及时找组长，不要硬扛到周末
主动找搭档互评、互测、互问

第 8 周末

答辩 + 综合评估由"培训负责人 + 业务方代表 + 第三方评估者"三方完成
评估结果当周公开，附详细评分明细
进入专家通道培养的成员当周启动相应路径；需要补强的成员当周 1on1 沟通下一步计划

数据QA大模型能力清单&学习手册

行业全景 —— 大模型数据产业的坐标系

一、大模型数据的 7 种形态分层

预训练数据

SFT 数据

偏好数据 / RLHF

Reasoning 数据

Agent Trajectory

Benchmark 数据

Red-teaming

二、数据生产服务行业玩家全景

主要玩家

5 种商业模式

① 通用标注服务

② 垂类专家网络

③ 评测服务

④ 安全 / 红队

⑤ 数据基础设施

三、Model Card / System Card：行业的"风向标"

主流厂商的评估框架

关键评估维度

能力维度

风险维度

推荐阅读顺序（给新人）

四、行业未来 12-24 个月趋势判断

Reasoning 数据需求爆发

Agent 普及 → Trajectory 评测刚需

多模态 / VLA 持续扩张

评测科学化：从"看分"到"设计分"

合规与红队需求上升

传统标注业务持续承压

开场背景 —— 传统感知 QA vs 大模型 QA 范式对比

感知物理世界，做出物理动作

理解符号世界，生成符号输出

一、传统感知类 QA：相同的数据范式

二、大模型 QA：完全不同的数据范式

三、5 个最关键的不同

数据从"采集"变成"生产"

Ground Truth 从"客观"变成"约定"

标注从"看准"变成"判准"

评测从"一个指标"变成"一套体系"

QA 角色从"执行者"变成"标准设计者"

四、不变的部分：传统 QA 内核为什么仍有用

五、一张图看懂

传统感知类 QA

大模型 QA

六、4 个常见误解先澄清

误解 1：大模型 QA 比传统 QA"高级"

误解 2：大模型 QA 不需要专业知识

误解 3：LLM as judge 不需要人

误解 4：转型 = 学技术

能力框架与成长路径

一、为什么要做这件事

二、三条成长通道

基础通道

主力通道

专家通道

三、四个核心能力簇详解

一致性 QA 核心能力

评测设计能力

交付能力

工具熟练度

四、8 周培训路线图

五、评估机制

周度评估

阶段评估

持续评估

六、常见疑问

8 周培训详细计划

大模型基础 + 三家产品上手

Prompt 设计入门

Rubric 设计核心能力

案例 A · 客服对话

案例 B · 数学推理

案例 C · Agent Trajectory

Ground Truth 设计 + 一致性（IAA）

Reasoning 评测能力

Benchmark 理解 + Evaluation 方法

Agent 使用 + Trajectory 理解

综合实战 + 业务场景模拟