Pretrain LLM Evaluation

三视角研究报告 · 2026-05-25 截稿

系统梳理 2020 年代主流大模型在 pretrain / post-train 阶段使用的评估集，覆盖 113 个 benchmark 与评测框架（含 47 个 2026 Q1–Q2 涌现的 frontier 工作）。每个 benchmark 含 SOTA / contamination / 设计争议 / 工程实操等多维信息。

Part I — 工程实践者手册

7 章 + 附录。lm-evaluation-harness 代码导读、跑通经典 benchmark、reasoning-era 工程挑战、live / contamination / 长上下文 / agent 综合工程。
下载 PDF (2.4 MB)
Part II — 调研者综述

7 章 + 附录。评估理论、pretrain 方法论、知识 / 数学 / code benchmark 学术批评、benchmark 饱和与 contamination 辩论、live / agent 范式转移、未来方向。
下载 PDF (2.8 MB)
Part III — 选型 Cookbook

5 章 + 附录。决策框架、反向工程 7 大实验室 eval 套餐、避坑指南、5 大场景速查、未来 6-12 月跟踪方向。
下载 PDF (2.1 MB)

💬 划词注释 / 提问

每份 HTML 报告右下角有 💬 0 浮动按钮。

用法：正文中划选 ≥3 字 → 弹出 💬 添加注释 → 选 tag (问题 / 笔记 / 灵感 / 待核实) → 写想法 + 可选"希望 AI 怎么回应"。所有注释存浏览器本地（localStorage），跨 3 份报告共享。

导出：点右下角浮动按钮 → "📋 导出 Markdown" → 一键复制到剪贴板 + 下载 .md 文件（含 quote / 章节锚 / 你的问题 / AI hint），直接粘给 AI 助手就能带上下文提问。

跨设备：在 A 机器 "💾 备份 JSON" → 在 B 机器 "📥 导入 JSON"。

作者：Weilin Wan · 生成于 2026-05-25 · 注释功能 2026-05-27 上线 · 全部 fact-card 含 paper / repo / SOTA / critique 来源 URL · 60+ 篇 2025 后引用。

注：Frontier Watch 附录诚实声明截稿后涌现的工作未深处理，建议 6-12 个月后回看。

Pretrain LLM Evaluation

Part I — 工程实践者手册

Part II — 调研者综述

Part III — 选型 Cookbook

💬 划词注释 / 提问