31. DFTBench 10 大材料类别：物理特征与计算挑战¶

本篇回答一个工程师/ML 博士生读 DFTBench 时最自然的问题：

为什么 benchmark 要按 10 种类别分？不同类别的 DFT 计算难点到底在哪？为什么论文里磁性材料的 Pass Rate 不到 6%？

核心结论一句话：这 10 类不是物理教科书随手抓的分类，而是按"LLM agent 需要对 QE 做哪些额外设置"组织的——每一类都对应一组特殊的输入标志（nspin、lspinorb、occupations、Hubbard_U…），对应一套容易出错的收敛行为。理解了这个映射，就理解了 DFTBench 的难度分布。

前置阅读：00-simplification-chain.md、30-observables.md。反查表：99-dftbench-terms.md。

10 类对照速查表¶

#	类别	核心物理	最关键 QE 设置	头号计算难点	论文 Pass Rate
1	金属 Metal	费米面切过能带，零带隙	`occupations='smearing'`, `degauss`	k 点密度、smearing 选择	较高（易收敛）
2	半导体 Semiconductor	小带隙 (≲3 eV)，价带全占	默认 `fixed` occupations	DFT 系统性低估带隙	较高
3	绝缘体 Insulator	大带隙 (≳3 eV)，离子性	默认 `fixed`，注意强极化	F/O 的 `ecutwfc` 高	较高
4	铁电 Ferroelectric	自发极化，结构畸变	极化相位（Berry phase）	两个能量极小值、压力敏感	中等
5	压电 Piezoelectric	应力 ↔ 电极化耦合	DFPT 声子 + 极化	方向性 + 对称性破缺	中等
6	磁性 Magnetic	自旋极化，反铁磁/铁磁/亚铁磁	`nspin=2`, `starting_magnetization`, DFT+U	SCF 不收敛 / 收敛到错误态	< 6%
7	超导 Superconductor	电声耦合，需声子	`ph.x` + Eliashberg；极端条件	声子负频率、高压结构	低
8	拓扑 Topological	自旋轨道耦合翻转能带	`lspinorb=.true.`, FR 赝势	赝势种类、带隙倒置	低
9	热电 Thermoelectric	低 κ + 合适 σ，小带隙	声子 + Boltzmann 输运	双要素同时优化	中等
10	光学 Optical	介电函数 ε(ω)	`epsilon.x`, 非占据态多	`nbnd` 要足够大	中等

ML 类比：这 10 类相当于 ImageNet 的 10 个子任务。金属/半导体/绝缘体是"干净的大类"，磁性/拓扑/超导是"长尾 + 分布外"；DFT agent 要么在长尾上崩掉，要么得针对每类调整"数据增强"（特殊标志）。

1. 金属 Metal¶

物理定义：费米能级 \(E_F\) 穿过至少一条能带，价带与导带在 \(E_F\) 处连续——带隙 = 0，存在自由电子。

电子结构特征： - 费米面是 BZ 内的连续曲面（不是孤立点） - \(E_F\) 处 DOS 不为零 → 导电 - 无能隙意味着激发电子能量成本趋于零

代表材料（benchmark）： - 碱金属：Li, Na, K —— BCC 结构，一个 s 价电子，最简单的金属 - 简单金属：Al —— FCC，三个 sp 价电子 - 贵金属：Cu, Ag, Au —— FCC，满 d 壳层 + 一个 s 电子 - 过渡金属：Fe（BCC，磁性！会重叠到第 6 类）、W、Mo（BCC，重元素）

对 DFT 的特殊要求： - 必须用 smearing。占据数 \(f\) 在 \(E_F\) 附近不连续，直接 fixed 会导致 SCF 震荡发散。 - QE：occupations='smearing', smearing='mv'（Marzari-Vanderbilt，推荐）或 'gauss' - degauss=0.01-0.02 Ry（太小 → 收敛难；太大 → 能量有 smearing 误差） - k 点密度要大。费米面需要密集采样才能精确定位。半导体 \(8^3\) 够了，金属建议 \(12^3\) 起。 - ecutwfc 视赝势而定。过渡金属（Fe, W, Mo）的 3d/5d 电子需要较高截断，通常 60-80 Ry。 - 重元素（Au, W, Mo）应考虑 SOC（但基础 vc-relax 里通常不开）。

收敛性常见坑： - degauss 没设 → SCF 反复震荡，mixing_beta 调小也救不回来 - k 点太稀 → 总能量对 k 点数敏感，vc-relax 给出错误晶格常数 - 过渡金属初始化电子态差 → SCF 前几步能量跳跃大，需要 startingpot='atomic' 稳妥启动

ML 类比：金属的 \(E_F\) 像 ReLU 的拐点——必须做"软化"（smearing = 温度项 = label smoothing）才能让梯度信息流过。

benchmark 评分难度： - 论文 Figure 4 显示金属类 Pass Rate 较高——物理相对简单、收敛参数模式化 - LLM 容易记住"金属 → smearing"，所以参数选对的概率高

对应物性（见 30-observables.md）： - 晶格常数 a, b, c；总能量；费米能级 \(E_F\)；DOS at \(E_F\)（电导率代理）

典型 QE 计算步骤（vc-relax）：

&SYSTEM
  occupations = 'smearing'
  smearing = 'mv'
  degauss = 0.02
  ecutwfc = 60.0   ! 过渡金属建议 60-80
/
K_POINTS automatic
  12 12 12 0 0 0   ! 金属加密

2. 半导体 Semiconductor¶

物理定义：价带全占，导带全空，价带顶与导带底之间有 0 < 带隙 ≲ 3 eV 的能量间隙。

电子结构特征： - 费米能级位于带隙中间（本征半导体） - 零温下不导电，热激发 / 光激发 / 掺杂使其导电 - 占据数在 0/1 处是整数，不需要 smearing

代表材料（benchmark）： - IV 族：Si（最经典，带隙 1.17 eV）、Ge（0.74 eV）、C(diamond)（5.5 eV，实为宽隙半导体/绝缘体边缘） - III-V 族：GaAs（1.52 eV，直接带隙）、InP（1.42 eV）、AlP（2.5 eV） - II-VI 族：ZnS（3.6 eV）、ZnSe（2.8 eV）、CdTe（1.6 eV） - 层状/二维：BN（六方，宽带隙 ~6 eV，也在绝缘体边缘）

对 DFT 的特殊要求： - occupations 用 fixed（默认） - k 点密度中等（\(8^3 \sim 10^3\)） - 注意带隙低估：PBE 低估带隙 30-50% 是常态。如果 benchmark 要的是带隙值且要求精度，必须用 HSE06 / G₀W₀ 才能拿到准确结果——但 DFTBench 基础任务里一般不要求这级精度。 - 重元素（Ge, Ga, In, Cd, Te）应考虑 SOC（精细带结构），基础 vc-relax 可忽略。 - ecutwfc：Si/Ge/GaAs 约 40-50 Ry；含 d 电子（Zn, Cd）建议 60+ Ry。

收敛性常见坑： - 误用 smearing 导致总能量轻微偏离 - C(diamond) 实际上是 5.5 eV 宽带隙——当成"半导体"配默认精度也够，但若按半导体做光学计算会漏掉高能激发 - 层状材料（BN-hex）vc-relax 会把层间距压扁——PBE 缺范德华修正（需要 vdw_corr='grimme-d3'）

benchmark 评分难度： - 论文 Figure 4 显示半导体 Pass Rate 较高——Si 是 DFT 世界的 MNIST - LLM 对 Si/Ge/GaAs 的"标准参数"记忆深

对应物性： - 晶格常数；带隙 \(E_g\)；能带结构；DOS；介电函数（跟光学类重合）

3. 绝缘体 Insulator¶

物理定义：带隙很大（通常 ≳ 3 eV），常温下几乎不导电。多为离子晶体（强静电键）。

电子结构特征： - 价带（阴离子 p 轨道为主）与导带（阳离子 s 轨道为主）之间有宽带隙 - 电荷转移强（如 Na⁺ + Cl⁻ 几乎是整数电荷） - 极化率小，介电常数低

代表材料（benchmark）： - 碱卤：NaCl（9 eV）、KCl（8.7 eV）、LiF（14 eV）、NaF（11.5 eV）—— 岩盐结构 - 氧化物：MgO（7.8 eV）、CaO（7.1 eV）、BeO（10.6 eV）—— 岩盐或纤锌矿 - 氟化物：MgF₂（金红石结构，11 eV） - 氮化物 / 氧化硅：AlN（6.3 eV，纤锌矿）、SiO₂（9 eV，α-石英）

对 DFT 的特殊要求： - ecutwfc 往往要高： - F 原子 2p 轨道紧，需要 80-100 Ry - O 原子也需要 60-80 Ry - k 点可以较稀（大带隙 → 能量对 BZ 采样不敏感，\(6^3 \sim 8^3\) 够） - 无需 smearing / nspin（除非磁性氧化物） - 带隙仍被 PBE 低估，但因为绝对值大，相对误差小；基础 vc-relax 不受影响 - SiO₂ 有 α-石英、鳞石英、方石英等多相——ground truth 需指定

收敛性常见坑： - F 化物 ecutwfc 设低会导致力不收敛 - 离子晶体初始 guess 差时 SCF 慢（但一般能收敛） - SiO₂ 的 Si-O-Si 键角软，vc-relax 步数可能多

benchmark 评分难度： - 论文 Figure 4 Pass Rate 较高，但指出"倾向保守参数 → 成本效率低"——LLM 给 LiF 设 ecutwfc=120、k=16³ 也能过，就是贵 - 收敛容易，精度达标不难

对应物性： - 晶格常数；带隙；介电常数；声子（光学类重合）

4. 铁电 Ferroelectric¶

物理定义：存在自发极化 P，可通过外电场反转。通常由结构相变（高对称顺电相 → 低对称铁电相）产生。

电子结构特征： - 多为 ABO₃ 钙钛矿（BaTiO₃、PbTiO₃）或其他畸变结构 - 铁电相的原子位置相对顺电相有微小位移（~0.1 Å） - 能带结构与普通半导体/绝缘体类似，关键是结构

代表材料（benchmark）： - 钙钛矿 ABO₃：BaTiO₃（Tc ~ 120 °C）、PbTiO₃（Tc ~ 490 °C）、KNbO₃、NaNbO₃、LiNbO₃、LiTaO₃、BiFeO₃（多铁，同时铁电 + 反铁磁） - IV-VI 半导体：GeTe、SnTe（岩盐畸变） - HfO₂：近年发现的萤石结构铁电体，工艺兼容

对 DFT 的特殊要求： - 结构弛豫对泛函敏感：PBE 高估 BaTiO₃ 晶格常数导致铁电不稳定；推荐 PBEsol（对固态晶格更准） - 必须允许结构破缺对称：vc-relax 如果初始结构是立方相，会卡在假极小——应从畸变结构出发 - 极化计算用 Berry phase：calculation='nscf' + lberry=.true.（基础 benchmark 一般只要弛豫结构） - BiFeO₃ 是磁性 + 铁电：必须 nspin=2 + DFT+U on Fe - HfO₂ 有多个多相（单斜、四方、萤石畸变）——相对能量差 <50 meV，非常敏感

收敛性常见坑： - 用 PBE 跑 BaTiO₃ vc-relax，会得到假立方相 - 初始对称性太高，vc-relax 不会主动破缺——需要手动给一点原子位移 - 多相能量差小，etot_conv_thr 和 press_conv_thr 必须收严

benchmark 评分难度： - 中等。论文指出 GPT-5.2 在铁电和光学类上表现好——推理能力强才能理解"相变 + 参数敏感"

对应物性： - 弛豫结构（最关键，因为铁电的本质是结构畸变）；极化强度 P；声子软模；介电常数

5. 压电 Piezoelectric¶

物理定义：无反演对称的晶体中，机械应力诱导电极化（正压电效应），或电场诱导应变（逆压电效应）。

电子结构特征： - 必需条件是晶体无反演中心（21 个无心点群中的 20 个具压电性） - 通常是极性半导体（纤锌矿、闪锌矿等） - 带结构与普通半导体类似

代表材料（benchmark）： - 纤锌矿 wurtzite：ZnO、AlN、GaN、BN(wz)、BeO、CdS、CdSe - 铁电也压电（子集）：LiNbO₃、LiTaO₃ - α-SiO₂（石英）：经典压电材料，手表晶振

对 DFT 的特殊要求： - 结构必须保持低对称：输入文件中 ibrav 选对纤锌矿（ibrav=4 hex 或 CELL_PARAMETERS 手写） - 压电系数 = d_ijk，计算需要 DFPT（ph.x 线性响应，\(q=\Gamma\)）或有限差分应变 - 基础 vc-relax 与半导体/绝缘体类似，关键在后续的压电张量计算

收敛性常见坑： - 若误用 ibrav 导致对称性被"升级"为中心对称，压电性消失 - ZnO 的 3d 电子 binding energy 被 PBE 放在错误位置（过浅）——带隙 1 eV（实验 3.4 eV）；DFT+U on Zn-d 可以部分修正 - 声子 DFPT 计算昂贵

benchmark 评分难度： - 与铁电类似，中等。主要在"是否正确识别这类材料需要特殊的极化计算"

对应物性： - 弛豫结构；Born 有效电荷 Z*；压电张量 d；声子

6. 磁性 Magnetic（论文里最难的一类，Pass Rate < 6%）¶

物理定义：原子局域磁矩在基态保持有序排列——铁磁 (FM) 全同方向、反铁磁 (AFM) 相邻反向、亚铁磁 (FiM) 反向但不抵消。

电子结构特征： - 自旋上/下两套能带分裂（自旋极化） - 过渡金属 3d 或稀土 4f 局域电子是磁矩主要来源 - 往往伴随强关联：d/f 电子的库仑排斥 U 不可忽略，PBE 本身不够

代表材料（benchmark）： - 铁磁金属：Fe（BCC，m ≈ 2.2 μ_B/atom）、Co（HCP）、Ni（FCC） - 反铁磁金属：Cr（BCC）、Mn（复杂结构） - 反铁磁氧化物：NiO、MnO、FeO、Cr₂O₃ —— 岩盐结构 + 类型 II 反铁磁 - 亚铁磁：Fe₃O₄（磁铁矿）

为什么磁性类这么难？四层叠加¶

(a) 必须开自旋极化 nspin=2 - 默认 nspin=1 会得到错误的非磁性基态——总能量偏高、结构偏小 - LLM 如果不知道要开这个，直接就跑出 wrong answer - 对应实验：原论文观察到某些 agent 把 Fe 当普通金属处理

(b) 初始磁矩 starting_magnetization 必须合理 - SCF 是固定点迭代，初始值决定收敛到哪个极小 - 给 Fe 设 starting_magnetization(1)=0.7 会收敛到 FM 基态；设 0 会收敛到非磁亚稳态 - 反铁磁更难：必须给不同原子不同初始磁矩符号（原子需要拆分 species） - 比如 NiO 输入两种 "Ni1" 和 "Ni2"，分别设 +1 和 −1 - LLM 往往不会做这件事——直接 starting_magnetization(1)=0.5，收敛到 FM 错解

(c) SCF 难收敛 - 磁矩相关的自由度让能量面更崎岖，混合算法容易震荡 - mixing_beta 一般要调小（0.3 → 0.1） - 需要 mixing_mode='local-TF' 对金属性磁性体系 - 迭代数从 ~50 涨到 200+

(d) 电子关联：DFT+U 或杂化泛函 - NiO、MnO 等：纯 PBE 得到金属（错误）或极小带隙，实验是 3-4 eV 的 Mott 绝缘体 - 必须加 Hubbard U（通常 U=4-8 eV on transition metal d） - QE：&SYSTEM 中 lda_plus_u=.true.，Hubbard_U(i)=4.0（i 是第 i 类原子） - U 的取值需要先验知识或 linear response 拟合 - 论文 Table 1 显示 Claude Opus 4.5 在 Hubbard U 上最可靠，但整体 Pass Rate 仍很低

ML 类比四合一： - nspin=2 = 必须使用的模态（漏了直接报废） - starting_magnetization = 非凸优化的初始化，随机初始化大概率去不到全局最优 - SCF 收敛 = 训练不稳定，要调 lr（mixing_beta）+ 正则（local-TF） - DFT+U = 需要额外先验的半监督——不加 U 就像没有正则的深度网络过拟合到错误架构

收敛性常见坑（汇总）： - 忘开 nspin=2 → 得到非磁假解 - 反铁磁没有拆分 species → 收敛到 FM - 没加 U → NiO 带隙 = 0 - mixing_beta 太大 → SCF 震荡 not converged - 初始磁矩全零 → 落入无磁亚稳态

benchmark 评分难度： - 所有类别中最难，论文明确写 "all models Pass Rate < 6%" - 难点不是单一参数错，而是多个参数必须同时对——nspin + starting_magnetization + species 拆分 + U + mixing，缺一不可 - 论文 §4.2 指出 Claude Opus 4.5 "Hubbard U 最可靠"但 overall Pass 低，说明知道加 U 不等于能过 benchmark——其他参数也得对

对应物性： - 磁矩 m（每原子、总）；自旋极化 DOS；磁序类型；晶格常数

典型 QE 计算步骤（NiO 反铁磁 vc-relax）：

&SYSTEM
  nspin = 2
  nat = 4
  ntyp = 3          ! Ni1, Ni2, O （把 Ni 拆成两种 species）
  starting_magnetization(1) = 0.5   ! Ni1
  starting_magnetization(2) = -0.5  ! Ni2
  starting_magnetization(3) = 0.0   ! O
  lda_plus_u = .true.
  Hubbard_U(1) = 4.6   ! Ni1
  Hubbard_U(2) = 4.6   ! Ni2
/
&ELECTRONS
  mixing_beta = 0.3
  mixing_mode = 'local-TF'
  conv_thr = 1.0e-8
/
ATOMIC_SPECIES
  Ni1 58.69 Ni.upf
  Ni2 58.69 Ni.upf
  O   16.00 O.upf

7. 超导 Superconductor¶

物理定义：低于临界温度 \(T_c\) 时电阻为零。多数常规超导由电声耦合驱动（BCS 理论）；铁基超导、铜氧化物是非常规。

电子结构特征： - 正常态通常是金属（费米面存在） - 超导态本身不直接出现在 DFT 静态计算中（需要 Eliashberg 方程 / ME 理论）

代表材料（benchmark）： - 传统 BCS 金属：Pb（\(T_c\)=7.2 K）、Al（1.2 K）、Sn、Nb（9.3 K）、V（5.4 K） - 二硼化镁：MgB₂（39 K，经典电声超导） - 层状 CDW 超导：NbSe₂、TaS₂（涉及 charge density wave） - 铁基超导：FeSe（~8 K 体相，单层 65 K） —— 强关联 + 磁起伏 - 高压富氢化物：LaH₁₀（\(T_c\) ~ 250 K @ 170 GPa） —— 极端高压下的亚稳结构

对 DFT 的特殊要求： - 基础 vc-relax：与金属类相同（smearing、密 k 点） - 超导本体计算需要声子：ph.x DFPT → q2r.x → matdyn.x → Eliashberg（λ, ω_log）→ McMillan/Allen-Dynes \(T_c\) - LaH₁₀ 必须在高压下弛豫：press=1700 kbar（170 GPa），否则结构不稳 - FeSe 是磁性 + 强关联：和磁性类交叉，需要 nspin=2 + U - NbSe₂ 可能需要超胞捕捉 CDW

收敛性常见坑： - 声子计算出现虚频（负频率）→ 结构不稳定或 k/q 网格太粗 - LaH₁₀ 忘记加压强，弛豫出来是垃圾 - FeSe 不开 spin → 错误基态

benchmark 评分难度： - 低。基础任务（vc-relax、SCF）对 Pb、Al 这种简单金属超导不难；但 MgB₂、FeSe、LaH₁₀ 需要额外知识 - 声子谱任务则更难（benchmark 有声子这一项，见 case study）

对应物性： - 弛豫结构；电声耦合 λ；\(T_c\)（需后处理）；声子谱

8. 拓扑 Topological¶

物理定义：体带结构在数学意义上具有非平凡拓扑不变量（\(\mathbb{Z}_2\)、Chern 数），导致体绝缘、表面金属的独特现象。自旋轨道耦合 (SOC) 是核心机制。

电子结构特征： - 体相看起来是半导体/半金属（有带隙或能带交叉） - SOC 使某些能带发生能带倒置 (band inversion) → 产生拓扑保护的表面态 - 狄拉克/外尔半金属（Cd₃As₂、Na₃Bi）：体相带隙为零，能带在某些点线性交叉

代表材料（benchmark）： - 拓扑半金属：Bi、Sb（半金属）、Cd₃As₂（狄拉克）、Na₃Bi（狄拉克） - 3D 拓扑绝缘体：Bi₂Se₃、Bi₂Te₃、Sb₂Te₃ —— 层状六方 - 拓扑晶体绝缘体：SnTe、PbTe（IV-VI 岩盐）、HgTe

对 DFT 的特殊要求： - 必须开 SOC：lspinorb=.true. - 必须用全相对论 (FR) 赝势：而非标量相对论 (SR)。PseudoDojo 里有 FR_v0.4 系列 - 这是赝势文件选择错误就完全搞砸的一类——LLM 需要知道去 PseudoDojo/FR_v0.4.1/ 而不是默认的 SR_v0.4.1/ - 必须 nspin=4（非共线自旋，因为 SOC 把上下自旋耦合） - noncolin=.true. 伴随 lspinorb=.true. - k 点要密：能带交叉点附近需要精细采样才能确认拓扑性 - ecutwfc 较高：Bi、Te、Pb、Hg 等重元素

收敛性常见坑： - 用 SR 赝势 → SOC 标志无效（QE 会报错或静默失效） - 忘开 noncolin 或 nspin=4 → 能带倒置不出现 - 计算量：nspin=4 相比 nspin=1 内存和时间 × 4

benchmark 评分难度： - 低-中等。论文 §4.4 点名 "Claude Opus 4.5 在拓扑体系上倾向次优配置"。核心问题是 LLM 需要同时选对赝势种类 + 三个耦合标志，错一个就全错

对应物性： - 弛豫结构；能带结构（看能带倒置）；Z₂ 拓扑数；表面态（slab 计算）

典型 QE 计算步骤：

&SYSTEM
  noncolin = .true.
  lspinorb = .true.
  ecutwfc = 60.0
/
ATOMIC_SPECIES
  Bi 208.98 Bi_fr.upf    ! 必须是 FR 赝势
  Se 78.96 Se_fr.upf

9. 热电 Thermoelectric¶

物理定义：温差 → 电压（Seebeck 效应）。品质因数 \(ZT = S^2 \sigma T / \kappa\)。需要高 Seebeck 系数 S + 高电导 σ + 低热导 κ——这是一个多目标优化。

电子结构特征： - 多为窄带隙半导体（≲ 0.5 eV）——有利于 Seebeck - 重元素组成 → 低声子热导（Bi、Te、Pb、Sb） - 与拓扑类大量重叠（Bi₂Te₃ 既是拓扑绝缘体又是热电材料）

代表材料（benchmark）： - V-VI 层状：Bi₂Te₃、Sb₂Te₃（同时是拓扑绝缘体） - IV-VI：PbTe、SnTe、GeTe（也铁电）、SnSe - 硅化物：Mg₂Si、Mg₂Ge、SiGe（轻元素，中温） - Skutterudite：CoSb₃（笼结构，声子工程）

对 DFT 的特殊要求： - 基础 vc-relax 类似半导体 - 热电真正需要的： - 电子部分：Boltzmann 输运方程（BoltzTraP、EPW）——需要密集 k 点 nscf - 声子部分：ph.x 得声子谱 → 热导 - 重元素应开 SOC：Bi、Te、Pb 的能带在 SOC 下明显变化 - Mg₂Si、SiGe 无需 SOC

收敛性常见坑： - 忘开 SOC 导致 Bi₂Te₃ 带隙算错（PBE 无 SOC 约 0.4 eV，加 SOC 约 0.1 eV；实验 0.15 eV） - SnSe 有多个相（Pnma、Cmcm），能量接近 - Skutterudite（CoSb₃）大单元（32 原子）vc-relax 昂贵

benchmark 评分难度： - 中等。基础任务不难，但涉及 SOC 的材料错了就全错

对应物性： - 弛豫结构；带隙；Seebeck S；电导 σ；声子热导 κ_L

10. 光学 Optical¶

物理定义：材料对光的响应——介电函数 \(\varepsilon(\omega) = \varepsilon_1 + i\varepsilon_2\)，决定折射率、吸收谱、反射率。

电子结构特征： - 通常是半导体或绝缘体（光学响应在带隙附近） - 需要空能带 (unoccupied bands) 才能算激发——SCF 默认只算占据态 - 基础物理是价→导带跃迁矩阵元

代表材料（benchmark）： - 半导体：Si、Ge、GaAs、ZnO（紫外 LED） - 宽带隙氟化物：MgF₂、CaF₂、BaF₂、LiF（UV 光学窗口） - 氧化物：Al₂O₃（蓝宝石）、LiNbO₃（非线性光学）

对 DFT 的特殊要求： - nbnd 必须足够大：默认 nbnd = N_occupied，光学需要 nbnd = 2-3 × N_occupied - k 点要密：介电函数对 BZ 采样敏感 - nscf 后用 epsilon.x 计算 RPA 级介电函数 - 精确带隙需要 HSE06 / G₀W₀（基础 benchmark 不要求） - 非线性光学（LiNbO₃） 需要更复杂的二阶响应计算

收敛性常见坑： - nbnd 设小了，epsilon.x 给出截断谱 - PBE 低估带隙 → 吸收边位置错 - Al₂O₃ 多相（刚玉、γ、θ...）

benchmark 评分难度： - 中等。论文 §4.2 指出 GPT-5.2 在光学类表现好——能正确设 nbnd 和 k 点密度需要一定推理能力 - 纯晶格常数任务（vc-relax）与半导体/绝缘体无异，简单

对应物性： - 弛豫结构；带隙；介电函数 ε(ω)；折射率 n(ω)

纵向对比：哪些物理机制跨类别？¶

机制	涉及类别	QE 标志
Smearing（费米面平滑）	1 金属, 7 超导	`occupations='smearing'`
自旋极化	6 磁性, 7 超导(FeSe), 4 铁电(BiFeO₃)	`nspin=2`
非共线 + SOC	8 拓扑, 部分 9 热电	`noncolin=.true.`, `lspinorb=.true.`
Hubbard U	6 磁性氧化物, 部分 9 热电	`lda_plus_u=.true.`
范德华修正	层状 2/3（BN、SiO₂）、部分 7/8/9	`vdw_corr='grimme-d3'`
PBEsol（优于 PBE）	4 铁电, 部分 6 磁性	`input_dft='pbesol'`
全相对论赝势	8 拓扑	选 `*_fr.upf` 文件
大 `nbnd`	10 光学	`nbnd=2*N_occ`
声子 + DFPT	5 压电, 7 超导, 9 热电	后接 `ph.x`

ML 类比汇总： - 金属 ≈ 有 label smoothing 的分类 - 半导体 ≈ 标准监督学习 - 绝缘体 ≈ 高信噪比的简单任务 - 铁电 ≈ 对初始化敏感的非凸优化 - 磁性 ≈ 小样本 + 类别不平衡 + 需要先验（U）的困难任务 - 超导 ≈ 需要两阶段（弛豫+声子）pipeline - 拓扑 ≈ 分布外检测（必须用专门的 FR 赝势 = 专门的 backbone） - 热电 ≈ 多目标优化 - 光学 ≈ 需要"负样本"（空能带）的训练 - 压电 ≈ 结构化预测（张量而非标量）

LLM agent 在各类别上的典型失败模式¶

根据论文 §4.2 和 Table 1 的观察，结合代码分析：

失败模式	最常出现于
漏设 `nspin=2`	磁性（Fe、Ni、NiO...）
反铁磁 species 不拆分	NiO、MnO、Cr₂O₃
漏设 Hubbard U	NiO、MnO、FeO、Fe₃O₄
漏开 SOC / 用错赝势	Bi₂Te₃、HgTe、SnTe（拓扑 + 热电）
漏加范德华修正	层状材料（BN、SiO₂、Bi₂Te₃ 层间）
Smearing 未开	过渡金属、超导金属
`ecutwfc` 对 F/O 设低	LiF、NaF、MgF₂、SiO₂
PBE 当铁电跑出假立方相	BaTiO₃、PbTiO₃
磁性体系 `mixing_beta` 太大不收敛	Fe、Cr、Mn 及其氧化物
`nbnd` 太小	光学类 epsilon.x

这也是 DFTBench 评分梯度的来源：参数组合越多、越不寻常，LLM 越容易在某一个环节上掉链子。磁性类同时踩 nspin + starting_magnetization + species 拆分 + U + mixing 五个坑，所以 Pass Rate 最低。

与 benchmark 字段的对应¶

DFTBench 每条 JSON 记录的 category 字段就是本篇讨论的 10 类之一（见 tritonDFT-src/benchmark/materials/*.json）。评分字段（a, b, c, α, β, γ、space_group）对所有类别通用，但达到评分所需的 QE 设置因类别而异——这正是 tool_setup prompt 的任务：根据 category 和 material name 推断需要哪些特殊标志。

想看 JSON 字段到概念的完整反查，见 99-dftbench-terms.md。

学习建议¶

先把 10 类速查表背下来——至少记得每类的"头号难点"
打开 benchmark/materials/magnetic_materials.json 看实际条目，对照"为什么难"
挑一个材料（推荐 NiO 或 Bi₂Se₃）手写输入文件，感受那些特殊标志
跑一次 benchmark_agent_test.py --task-type vc_relax --difficulty hard，看 LLM 在磁性类上怎么崩
读完回来标记：哪些类别你还不能 3 分钟内说出特殊参数