三视角研究报告 · 2026-05-25 截稿
系统梳理 2020 年代主流大模型在 pretrain / post-train 阶段使用的评估集,覆盖 113 个 benchmark 与评测框架(含 47 个 2026 Q1–Q2 涌现的 frontier 工作)。每个 benchmark 含 SOTA / contamination / 设计争议 / 工程实操等多维信息。
7 章 + 附录。lm-evaluation-harness 代码导读、跑通经典 benchmark、reasoning-era 工程挑战、live / contamination / 长上下文 / agent 综合工程。
下载 PDF (2.4 MB)7 章 + 附录。评估理论、pretrain 方法论、知识 / 数学 / code benchmark 学术批评、benchmark 饱和与 contamination 辩论、live / agent 范式转移、未来方向。
下载 PDF (2.8 MB)5 章 + 附录。决策框架、反向工程 7 大实验室 eval 套餐、避坑指南、5 大场景速查、未来 6-12 月跟踪方向。
下载 PDF (2.1 MB)