Pretrain LLM Evaluation

三视角研究报告 · 2026-05-25 截稿

系统梳理 2020 年代主流大模型在 pretrain / post-train 阶段使用的评估集,覆盖 113 个 benchmark 与评测框架(含 47 个 2026 Q1–Q2 涌现的 frontier 工作)。每个 benchmark 含 SOTA / contamination / 设计争议 / 工程实操等多维信息。

作者:Weilin Wan · 生成于 2026-05-25 · 全部 fact-card 含 paper / repo / SOTA / critique 来源 URL · 60+ 篇 2025 后引用。

注:Frontier Watch 附录诚实声明截稿后涌现的工作未深处理,建议 6-12 个月后回看。