跳转至

31. DFTBench 10 大材料类别:物理特征与计算挑战

本篇回答一个工程师/ML 博士生读 DFTBench 时最自然的问题:

为什么 benchmark 要按 10 种类别分?不同类别的 DFT 计算难点到底在哪?为什么论文里磁性材料的 Pass Rate 不到 6%?

核心结论一句话:这 10 类不是物理教科书随手抓的分类,而是按"LLM agent 需要对 QE 做哪些额外设置"组织的——每一类都对应一组特殊的输入标志(nspinlspinorboccupationsHubbard_U…),对应一套容易出错的收敛行为。理解了这个映射,就理解了 DFTBench 的难度分布。

前置阅读:00-simplification-chain.md30-observables.md。反查表:99-dftbench-terms.md


10 类对照速查表

# 类别 核心物理 最关键 QE 设置 头号计算难点 论文 Pass Rate
1 金属 Metal 费米面切过能带,零带隙 occupations='smearing', degauss k 点密度、smearing 选择 较高(易收敛)
2 半导体 Semiconductor 小带隙 (≲3 eV),价带全占 默认 fixed occupations DFT 系统性低估带隙 较高
3 绝缘体 Insulator 大带隙 (≳3 eV),离子性 默认 fixed,注意强极化 F/O 的 ecutwfc 较高
4 铁电 Ferroelectric 自发极化,结构畸变 极化相位(Berry phase) 两个能量极小值、压力敏感 中等
5 压电 Piezoelectric 应力 ↔ 电极化耦合 DFPT 声子 + 极化 方向性 + 对称性破缺 中等
6 磁性 Magnetic 自旋极化,反铁磁/铁磁/亚铁磁 nspin=2, starting_magnetization, DFT+U SCF 不收敛 / 收敛到错误态 < 6%
7 超导 Superconductor 电声耦合,需声子 ph.x + Eliashberg;极端条件 声子负频率、高压结构
8 拓扑 Topological 自旋轨道耦合翻转能带 lspinorb=.true., FR 赝势 赝势种类、带隙倒置
9 热电 Thermoelectric 低 κ + 合适 σ,小带隙 声子 + Boltzmann 输运 双要素同时优化 中等
10 光学 Optical 介电函数 ε(ω) epsilon.x, 非占据态多 nbnd 要足够大 中等

ML 类比:这 10 类相当于 ImageNet 的 10 个子任务。金属/半导体/绝缘体是"干净的大类",磁性/拓扑/超导是"长尾 + 分布外";DFT agent 要么在长尾上崩掉,要么得针对每类调整"数据增强"(特殊标志)。


1. 金属 Metal

物理定义:费米能级 \(E_F\) 穿过至少一条能带,价带与导带在 \(E_F\) 处连续——带隙 = 0,存在自由电子。

电子结构特征: - 费米面是 BZ 内的连续曲面(不是孤立点) - \(E_F\) 处 DOS 不为零 → 导电 - 无能隙意味着激发电子能量成本趋于零

代表材料(benchmark): - 碱金属:Li, Na, K —— BCC 结构,一个 s 价电子,最简单的金属 - 简单金属:Al —— FCC,三个 sp 价电子 - 贵金属:Cu, Ag, Au —— FCC,满 d 壳层 + 一个 s 电子 - 过渡金属:Fe(BCC,磁性!会重叠到第 6 类)、W、Mo(BCC,重元素)

对 DFT 的特殊要求: - 必须用 smearing。占据数 \(f\)\(E_F\) 附近不连续,直接 fixed 会导致 SCF 震荡发散。 - QE:occupations='smearing', smearing='mv'(Marzari-Vanderbilt,推荐)或 'gauss' - degauss=0.01-0.02 Ry(太小 → 收敛难;太大 → 能量有 smearing 误差) - k 点密度要大。费米面需要密集采样才能精确定位。半导体 \(8^3\) 够了,金属建议 \(12^3\) 起。 - ecutwfc 视赝势而定。过渡金属(Fe, W, Mo)的 3d/5d 电子需要较高截断,通常 60-80 Ry。 - 重元素(Au, W, Mo)应考虑 SOC(但基础 vc-relax 里通常不开)。

收敛性常见坑: - degauss 没设 → SCF 反复震荡,mixing_beta 调小也救不回来 - k 点太稀 → 总能量对 k 点数敏感,vc-relax 给出错误晶格常数 - 过渡金属初始化电子态差 → SCF 前几步能量跳跃大,需要 startingpot='atomic' 稳妥启动

ML 类比:金属的 \(E_F\) 像 ReLU 的拐点——必须做"软化"(smearing = 温度项 = label smoothing)才能让梯度信息流过。

benchmark 评分难度: - 论文 Figure 4 显示金属类 Pass Rate 较高——物理相对简单、收敛参数模式化 - LLM 容易记住"金属 → smearing",所以参数选对的概率高

对应物性(见 30-observables.md): - 晶格常数 a, b, c;总能量;费米能级 \(E_F\);DOS at \(E_F\)(电导率代理)

典型 QE 计算步骤(vc-relax)

&SYSTEM
  occupations = 'smearing'
  smearing = 'mv'
  degauss = 0.02
  ecutwfc = 60.0   ! 过渡金属建议 60-80
/
K_POINTS automatic
  12 12 12 0 0 0   ! 金属加密


2. 半导体 Semiconductor

物理定义:价带全占,导带全空,价带顶与导带底之间有 0 < 带隙 ≲ 3 eV 的能量间隙。

电子结构特征: - 费米能级位于带隙中间(本征半导体) - 零温下不导电,热激发 / 光激发 / 掺杂使其导电 - 占据数在 0/1 处是整数,不需要 smearing

代表材料(benchmark): - IV 族:Si(最经典,带隙 1.17 eV)、Ge(0.74 eV)、C(diamond)(5.5 eV,实为宽隙半导体/绝缘体边缘) - III-V 族:GaAs(1.52 eV,直接带隙)、InP(1.42 eV)、AlP(2.5 eV) - II-VI 族:ZnS(3.6 eV)、ZnSe(2.8 eV)、CdTe(1.6 eV) - 层状/二维:BN(六方,宽带隙 ~6 eV,也在绝缘体边缘)

对 DFT 的特殊要求: - occupations 用 fixed(默认) - k 点密度中等\(8^3 \sim 10^3\)) - 注意带隙低估:PBE 低估带隙 30-50% 是常态。如果 benchmark 要的是带隙值且要求精度,必须用 HSE06 / G₀W₀ 才能拿到准确结果——但 DFTBench 基础任务里一般不要求这级精度。 - 重元素(Ge, Ga, In, Cd, Te)应考虑 SOC(精细带结构),基础 vc-relax 可忽略。 - ecutwfc:Si/Ge/GaAs 约 40-50 Ry;含 d 电子(Zn, Cd)建议 60+ Ry。

收敛性常见坑: - 误用 smearing 导致总能量轻微偏离 - C(diamond) 实际上是 5.5 eV 宽带隙——当成"半导体"配默认精度也够,但若按半导体做光学计算会漏掉高能激发 - 层状材料(BN-hex)vc-relax 会把层间距压扁——PBE 缺范德华修正(需要 vdw_corr='grimme-d3'

benchmark 评分难度: - 论文 Figure 4 显示半导体 Pass Rate 较高——Si 是 DFT 世界的 MNIST - LLM 对 Si/Ge/GaAs 的"标准参数"记忆深

对应物性: - 晶格常数;带隙 \(E_g\);能带结构;DOS;介电函数(跟光学类重合)


3. 绝缘体 Insulator

物理定义:带隙很大(通常 ≳ 3 eV),常温下几乎不导电。多为离子晶体(强静电键)。

电子结构特征: - 价带(阴离子 p 轨道为主)与导带(阳离子 s 轨道为主)之间有宽带隙 - 电荷转移强(如 Na⁺ + Cl⁻ 几乎是整数电荷) - 极化率小,介电常数低

代表材料(benchmark): - 碱卤:NaCl(9 eV)、KCl(8.7 eV)、LiF(14 eV)、NaF(11.5 eV)—— 岩盐结构 - 氧化物:MgO(7.8 eV)、CaO(7.1 eV)、BeO(10.6 eV)—— 岩盐或纤锌矿 - 氟化物:MgF₂(金红石结构,11 eV) - 氮化物 / 氧化硅:AlN(6.3 eV,纤锌矿)、SiO₂(9 eV,α-石英)

对 DFT 的特殊要求: - ecutwfc 往往要高: - F 原子 2p 轨道紧,需要 80-100 Ry - O 原子也需要 60-80 Ry - k 点可以较稀(大带隙 → 能量对 BZ 采样不敏感,\(6^3 \sim 8^3\) 够) - 无需 smearing / nspin(除非磁性氧化物) - 带隙仍被 PBE 低估,但因为绝对值大,相对误差小;基础 vc-relax 不受影响 - SiO₂ 有 α-石英、鳞石英、方石英等多相——ground truth 需指定

收敛性常见坑: - F 化物 ecutwfc 设低会导致力不收敛 - 离子晶体初始 guess 差时 SCF 慢(但一般能收敛) - SiO₂ 的 Si-O-Si 键角软,vc-relax 步数可能多

benchmark 评分难度: - 论文 Figure 4 Pass Rate 较高,但指出"倾向保守参数 → 成本效率低"——LLM 给 LiF 设 ecutwfc=120、k=16³ 也能过,就是贵 - 收敛容易,精度达标不难

对应物性: - 晶格常数;带隙;介电常数;声子(光学类重合)


4. 铁电 Ferroelectric

物理定义:存在自发极化 P,可通过外电场反转。通常由结构相变(高对称顺电相 → 低对称铁电相)产生。

电子结构特征: - 多为 ABO₃ 钙钛矿(BaTiO₃、PbTiO₃)或其他畸变结构 - 铁电相的原子位置相对顺电相有微小位移(~0.1 Å) - 能带结构与普通半导体/绝缘体类似,关键是结构

代表材料(benchmark): - 钙钛矿 ABO₃:BaTiO₃(Tc ~ 120 °C)、PbTiO₃(Tc ~ 490 °C)、KNbO₃、NaNbO₃、LiNbO₃、LiTaO₃、BiFeO₃(多铁,同时铁电 + 反铁磁) - IV-VI 半导体:GeTe、SnTe(岩盐畸变) - HfO₂:近年发现的萤石结构铁电体,工艺兼容

对 DFT 的特殊要求: - 结构弛豫对泛函敏感:PBE 高估 BaTiO₃ 晶格常数导致铁电不稳定;推荐 PBEsol(对固态晶格更准) - 必须允许结构破缺对称vc-relax 如果初始结构是立方相,会卡在假极小——应从畸变结构出发 - 极化计算用 Berry phasecalculation='nscf' + lberry=.true.(基础 benchmark 一般只要弛豫结构) - BiFeO₃ 是磁性 + 铁电:必须 nspin=2 + DFT+U on Fe - HfO₂ 有多个多相(单斜、四方、萤石畸变)——相对能量差 <50 meV,非常敏感

收敛性常见坑: - 用 PBE 跑 BaTiO₃ vc-relax,会得到假立方相 - 初始对称性太高,vc-relax 不会主动破缺——需要手动给一点原子位移 - 多相能量差小,etot_conv_thrpress_conv_thr 必须收严

benchmark 评分难度: - 中等。论文指出 GPT-5.2 在铁电和光学类上表现好——推理能力强才能理解"相变 + 参数敏感"

对应物性: - 弛豫结构(最关键,因为铁电的本质是结构畸变);极化强度 P;声子软模;介电常数


5. 压电 Piezoelectric

物理定义:无反演对称的晶体中,机械应力诱导电极化(正压电效应),或电场诱导应变(逆压电效应)。

电子结构特征: - 必需条件是晶体无反演中心(21 个无心点群中的 20 个具压电性) - 通常是极性半导体(纤锌矿、闪锌矿等) - 带结构与普通半导体类似

代表材料(benchmark): - 纤锌矿 wurtzite:ZnO、AlN、GaN、BN(wz)、BeO、CdS、CdSe - 铁电也压电(子集):LiNbO₃、LiTaO₃ - α-SiO₂(石英):经典压电材料,手表晶振

对 DFT 的特殊要求: - 结构必须保持低对称:输入文件中 ibrav 选对纤锌矿(ibrav=4 hex 或 CELL_PARAMETERS 手写) - 压电系数 = d_ijk,计算需要 DFPT(ph.x 线性响应,\(q=\Gamma\))或有限差分应变 - 基础 vc-relax 与半导体/绝缘体类似,关键在后续的压电张量计算

收敛性常见坑: - 若误用 ibrav 导致对称性被"升级"为中心对称,压电性消失 - ZnO 的 3d 电子 binding energy 被 PBE 放在错误位置(过浅)——带隙 1 eV(实验 3.4 eV);DFT+U on Zn-d 可以部分修正 - 声子 DFPT 计算昂贵

benchmark 评分难度: - 与铁电类似,中等。主要在"是否正确识别这类材料需要特殊的极化计算"

对应物性: - 弛豫结构;Born 有效电荷 Z*;压电张量 d;声子


6. 磁性 Magnetic(论文里最难的一类,Pass Rate < 6%)

物理定义:原子局域磁矩在基态保持有序排列——铁磁 (FM) 全同方向、反铁磁 (AFM) 相邻反向、亚铁磁 (FiM) 反向但不抵消。

电子结构特征: - 自旋上/下两套能带分裂(自旋极化) - 过渡金属 3d 或稀土 4f 局域电子是磁矩主要来源 - 往往伴随强关联:d/f 电子的库仑排斥 U 不可忽略,PBE 本身不够

代表材料(benchmark): - 铁磁金属:Fe(BCC,m ≈ 2.2 μ_B/atom)、Co(HCP)、Ni(FCC) - 反铁磁金属:Cr(BCC)、Mn(复杂结构) - 反铁磁氧化物:NiO、MnO、FeO、Cr₂O₃ —— 岩盐结构 + 类型 II 反铁磁 - 亚铁磁:Fe₃O₄(磁铁矿)

为什么磁性类这么难?四层叠加

(a) 必须开自旋极化 nspin=2 - 默认 nspin=1 会得到错误的非磁性基态——总能量偏高、结构偏小 - LLM 如果不知道要开这个,直接就跑出 wrong answer - 对应实验:原论文观察到某些 agent 把 Fe 当普通金属处理

(b) 初始磁矩 starting_magnetization 必须合理 - SCF 是固定点迭代,初始值决定收敛到哪个极小 - 给 Fe 设 starting_magnetization(1)=0.7 会收敛到 FM 基态;设 0 会收敛到非磁亚稳态 - 反铁磁更难:必须给不同原子不同初始磁矩符号(原子需要拆分 species) - 比如 NiO 输入两种 "Ni1" 和 "Ni2",分别设 +1 和 −1 - LLM 往往不会做这件事——直接 starting_magnetization(1)=0.5,收敛到 FM 错解

(c) SCF 难收敛 - 磁矩相关的自由度让能量面更崎岖,混合算法容易震荡 - mixing_beta 一般要调小(0.3 → 0.1) - 需要 mixing_mode='local-TF' 对金属性磁性体系 - 迭代数从 ~50 涨到 200+

(d) 电子关联:DFT+U 或杂化泛函 - NiO、MnO 等:纯 PBE 得到金属(错误)或极小带隙,实验是 3-4 eV 的 Mott 绝缘体 - 必须加 Hubbard U(通常 U=4-8 eV on transition metal d) - QE:&SYSTEMlda_plus_u=.true.Hubbard_U(i)=4.0(i 是第 i 类原子) - U 的取值需要先验知识或 linear response 拟合 - 论文 Table 1 显示 Claude Opus 4.5 在 Hubbard U 上最可靠,但整体 Pass Rate 仍很低

ML 类比四合一: - nspin=2 = 必须使用的模态(漏了直接报废) - starting_magnetization = 非凸优化的初始化,随机初始化大概率去不到全局最优 - SCF 收敛 = 训练不稳定,要调 lr(mixing_beta)+ 正则(local-TF) - DFT+U = 需要额外先验的半监督——不加 U 就像没有正则的深度网络过拟合到错误架构

收敛性常见坑(汇总): - 忘开 nspin=2 → 得到非磁假解 - 反铁磁没有拆分 species → 收敛到 FM - 没加 U → NiO 带隙 = 0 - mixing_beta 太大 → SCF 震荡 not converged - 初始磁矩全零 → 落入无磁亚稳态

benchmark 评分难度: - 所有类别中最难,论文明确写 "all models Pass Rate < 6%" - 难点不是单一参数错,而是多个参数必须同时对——nspin + starting_magnetization + species 拆分 + U + mixing,缺一不可 - 论文 §4.2 指出 Claude Opus 4.5 "Hubbard U 最可靠"但 overall Pass 低,说明知道加 U 不等于能过 benchmark——其他参数也得对

对应物性: - 磁矩 m(每原子、总);自旋极化 DOS;磁序类型;晶格常数

典型 QE 计算步骤(NiO 反铁磁 vc-relax)

&SYSTEM
  nspin = 2
  nat = 4
  ntyp = 3          ! Ni1, Ni2, O (把 Ni 拆成两种 species)
  starting_magnetization(1) = 0.5   ! Ni1
  starting_magnetization(2) = -0.5  ! Ni2
  starting_magnetization(3) = 0.0   ! O
  lda_plus_u = .true.
  Hubbard_U(1) = 4.6   ! Ni1
  Hubbard_U(2) = 4.6   ! Ni2
/
&ELECTRONS
  mixing_beta = 0.3
  mixing_mode = 'local-TF'
  conv_thr = 1.0e-8
/
ATOMIC_SPECIES
  Ni1 58.69 Ni.upf
  Ni2 58.69 Ni.upf
  O   16.00 O.upf


7. 超导 Superconductor

物理定义:低于临界温度 \(T_c\) 时电阻为零。多数常规超导由电声耦合驱动(BCS 理论);铁基超导、铜氧化物是非常规。

电子结构特征: - 正常态通常是金属(费米面存在) - 超导态本身不直接出现在 DFT 静态计算中(需要 Eliashberg 方程 / ME 理论)

代表材料(benchmark): - 传统 BCS 金属:Pb(\(T_c\)=7.2 K)、Al(1.2 K)、Sn、Nb(9.3 K)、V(5.4 K) - 二硼化镁:MgB₂(39 K,经典电声超导) - 层状 CDW 超导:NbSe₂、TaS₂(涉及 charge density wave) - 铁基超导:FeSe(~8 K 体相,单层 65 K) —— 强关联 + 磁起伏 - 高压富氢化物:LaH₁₀(\(T_c\) ~ 250 K @ 170 GPa) —— 极端高压下的亚稳结构

对 DFT 的特殊要求: - 基础 vc-relax:与金属类相同(smearing、密 k 点) - 超导本体计算需要声子ph.x DFPT → q2r.xmatdyn.x → Eliashberg(λ, ω_log)→ McMillan/Allen-Dynes \(T_c\) - LaH₁₀ 必须在高压下弛豫press=1700 kbar(170 GPa),否则结构不稳 - FeSe 是磁性 + 强关联:和磁性类交叉,需要 nspin=2 + U - NbSe₂ 可能需要超胞捕捉 CDW

收敛性常见坑: - 声子计算出现虚频(负频率)→ 结构不稳定或 k/q 网格太粗 - LaH₁₀ 忘记加压强,弛豫出来是垃圾 - FeSe 不开 spin → 错误基态

benchmark 评分难度: - 低。基础任务(vc-relax、SCF)对 Pb、Al 这种简单金属超导不难;但 MgB₂、FeSe、LaH₁₀ 需要额外知识 - 声子谱任务则更难(benchmark 有声子这一项,见 case study)

对应物性: - 弛豫结构;电声耦合 λ;\(T_c\)(需后处理);声子谱


8. 拓扑 Topological

物理定义:体带结构在数学意义上具有非平凡拓扑不变量\(\mathbb{Z}_2\)、Chern 数),导致体绝缘、表面金属的独特现象。自旋轨道耦合 (SOC) 是核心机制

电子结构特征: - 体相看起来是半导体/半金属(有带隙或能带交叉) - SOC 使某些能带发生能带倒置 (band inversion) → 产生拓扑保护的表面态 - 狄拉克/外尔半金属(Cd₃As₂、Na₃Bi):体相带隙为零,能带在某些点线性交叉

代表材料(benchmark): - 拓扑半金属:Bi、Sb(半金属)、Cd₃As₂(狄拉克)、Na₃Bi(狄拉克) - 3D 拓扑绝缘体:Bi₂Se₃、Bi₂Te₃、Sb₂Te₃ —— 层状六方 - 拓扑晶体绝缘体:SnTe、PbTe(IV-VI 岩盐)、HgTe

对 DFT 的特殊要求: - 必须开 SOClspinorb=.true. - 必须用全相对论 (FR) 赝势:而非标量相对论 (SR)。PseudoDojo 里有 FR_v0.4 系列 - 这是赝势文件选择错误就完全搞砸的一类——LLM 需要知道去 PseudoDojo/FR_v0.4.1/ 而不是默认的 SR_v0.4.1/ - 必须 nspin=4(非共线自旋,因为 SOC 把上下自旋耦合) - noncolin=.true. 伴随 lspinorb=.true. - k 点要密:能带交叉点附近需要精细采样才能确认拓扑性 - ecutwfc 较高:Bi、Te、Pb、Hg 等重元素

收敛性常见坑: - 用 SR 赝势 → SOC 标志无效(QE 会报错或静默失效) - 忘开 noncolinnspin=4 → 能带倒置不出现 - 计算量:nspin=4 相比 nspin=1 内存和时间 × 4

benchmark 评分难度: - 低-中等。论文 §4.4 点名 "Claude Opus 4.5 在拓扑体系上倾向次优配置"。核心问题是 LLM 需要同时选对赝势种类 + 三个耦合标志,错一个就全错

对应物性: - 弛豫结构;能带结构(看能带倒置);Z₂ 拓扑数;表面态(slab 计算)

典型 QE 计算步骤

&SYSTEM
  noncolin = .true.
  lspinorb = .true.
  ecutwfc = 60.0
/
ATOMIC_SPECIES
  Bi 208.98 Bi_fr.upf    ! 必须是 FR 赝势
  Se 78.96 Se_fr.upf


9. 热电 Thermoelectric

物理定义:温差 → 电压(Seebeck 效应)。品质因数 \(ZT = S^2 \sigma T / \kappa\)。需要高 Seebeck 系数 S + 高电导 σ + 低热导 κ——这是一个多目标优化。

电子结构特征: - 多为窄带隙半导体(≲ 0.5 eV)——有利于 Seebeck - 重元素组成 → 低声子热导(Bi、Te、Pb、Sb) - 与拓扑类大量重叠(Bi₂Te₃ 既是拓扑绝缘体又是热电材料)

代表材料(benchmark): - V-VI 层状:Bi₂Te₃、Sb₂Te₃(同时是拓扑绝缘体) - IV-VI:PbTe、SnTe、GeTe(也铁电)、SnSe - 硅化物:Mg₂Si、Mg₂Ge、SiGe(轻元素,中温) - Skutterudite:CoSb₃(笼结构,声子工程)

对 DFT 的特殊要求: - 基础 vc-relax 类似半导体 - 热电真正需要的: - 电子部分:Boltzmann 输运方程(BoltzTraPEPW)——需要密集 k 点 nscf - 声子部分:ph.x 得声子谱 → 热导 - 重元素应开 SOC:Bi、Te、Pb 的能带在 SOC 下明显变化 - Mg₂Si、SiGe 无需 SOC

收敛性常见坑: - 忘开 SOC 导致 Bi₂Te₃ 带隙算错(PBE 无 SOC 约 0.4 eV,加 SOC 约 0.1 eV;实验 0.15 eV) - SnSe 有多个相(Pnma、Cmcm),能量接近 - Skutterudite(CoSb₃)大单元(32 原子)vc-relax 昂贵

benchmark 评分难度: - 中等。基础任务不难,但涉及 SOC 的材料错了就全错

对应物性: - 弛豫结构;带隙;Seebeck S;电导 σ;声子热导 κ_L


10. 光学 Optical

物理定义:材料对光的响应——介电函数 \(\varepsilon(\omega) = \varepsilon_1 + i\varepsilon_2\),决定折射率、吸收谱、反射率。

电子结构特征: - 通常是半导体或绝缘体(光学响应在带隙附近) - 需要空能带 (unoccupied bands) 才能算激发——SCF 默认只算占据态 - 基础物理是价→导带跃迁矩阵元

代表材料(benchmark): - 半导体:Si、Ge、GaAs、ZnO(紫外 LED) - 宽带隙氟化物:MgF₂、CaF₂、BaF₂、LiF(UV 光学窗口) - 氧化物:Al₂O₃(蓝宝石)、LiNbO₃(非线性光学)

对 DFT 的特殊要求: - nbnd 必须足够大:默认 nbnd = N_occupied,光学需要 nbnd = 2-3 × N_occupied - k 点要密:介电函数对 BZ 采样敏感 - nscf 后用 epsilon.x 计算 RPA 级介电函数 - 精确带隙需要 HSE06 / G₀W₀(基础 benchmark 不要求) - 非线性光学(LiNbO₃) 需要更复杂的二阶响应计算

收敛性常见坑: - nbnd 设小了,epsilon.x 给出截断谱 - PBE 低估带隙 → 吸收边位置错 - Al₂O₃ 多相(刚玉、γ、θ...)

benchmark 评分难度: - 中等。论文 §4.2 指出 GPT-5.2 在光学类表现好——能正确设 nbnd 和 k 点密度需要一定推理能力 - 纯晶格常数任务(vc-relax)与半导体/绝缘体无异,简单

对应物性: - 弛豫结构;带隙;介电函数 ε(ω);折射率 n(ω)


纵向对比:哪些物理机制跨类别?

机制 涉及类别 QE 标志
Smearing(费米面平滑) 1 金属, 7 超导 occupations='smearing'
自旋极化 6 磁性, 7 超导(FeSe), 4 铁电(BiFeO₃) nspin=2
非共线 + SOC 8 拓扑, 部分 9 热电 noncolin=.true., lspinorb=.true.
Hubbard U 6 磁性氧化物, 部分 9 热电 lda_plus_u=.true.
范德华修正 层状 2/3(BN、SiO₂)、部分 7/8/9 vdw_corr='grimme-d3'
PBEsol(优于 PBE) 4 铁电, 部分 6 磁性 input_dft='pbesol'
全相对论赝势 8 拓扑 *_fr.upf 文件
nbnd 10 光学 nbnd=2*N_occ
声子 + DFPT 5 压电, 7 超导, 9 热电 后接 ph.x

ML 类比汇总: - 金属 ≈ 有 label smoothing 的分类 - 半导体 ≈ 标准监督学习 - 绝缘体 ≈ 高信噪比的简单任务 - 铁电 ≈ 对初始化敏感的非凸优化 - 磁性 ≈ 小样本 + 类别不平衡 + 需要先验(U)的困难任务 - 超导 ≈ 需要两阶段(弛豫+声子)pipeline - 拓扑 ≈ 分布外检测(必须用专门的 FR 赝势 = 专门的 backbone) - 热电 ≈ 多目标优化 - 光学 ≈ 需要"负样本"(空能带)的训练 - 压电 ≈ 结构化预测(张量而非标量)


LLM agent 在各类别上的典型失败模式

根据论文 §4.2 和 Table 1 的观察,结合代码分析:

失败模式 最常出现于
漏设 nspin=2 磁性(Fe、Ni、NiO...)
反铁磁 species 不拆分 NiO、MnO、Cr₂O₃
漏设 Hubbard U NiO、MnO、FeO、Fe₃O₄
漏开 SOC / 用错赝势 Bi₂Te₃、HgTe、SnTe(拓扑 + 热电)
漏加范德华修正 层状材料(BN、SiO₂、Bi₂Te₃ 层间)
Smearing 未开 过渡金属、超导金属
ecutwfc 对 F/O 设低 LiF、NaF、MgF₂、SiO₂
PBE 当铁电跑出假立方相 BaTiO₃、PbTiO₃
磁性体系 mixing_beta 太大不收敛 Fe、Cr、Mn 及其氧化物
nbnd 太小 光学类 epsilon.x

这也是 DFTBench 评分梯度的来源:参数组合越多、越不寻常,LLM 越容易在某一个环节上掉链子。磁性类同时踩 nspin + starting_magnetization + species 拆分 + U + mixing 五个坑,所以 Pass Rate 最低。


与 benchmark 字段的对应

DFTBench 每条 JSON 记录的 category 字段就是本篇讨论的 10 类之一(见 tritonDFT-src/benchmark/materials/*.json)。评分字段(a, b, c, α, β, γ、space_group)对所有类别通用,但达到评分所需的 QE 设置因类别而异——这正是 tool_setup prompt 的任务:根据 category 和 material name 推断需要哪些特殊标志。

想看 JSON 字段到概念的完整反查,见 99-dftbench-terms.md


学习建议

  1. 先把 10 类速查表背下来——至少记得每类的"头号难点"
  2. 打开 benchmark/materials/magnetic_materials.json 看实际条目,对照"为什么难"
  3. 挑一个材料(推荐 NiO 或 Bi₂Se₃)手写输入文件,感受那些特殊标志
  4. 跑一次 benchmark_agent_test.py --task-type vc_relax --difficulty hard,看 LLM 在磁性类上怎么崩
  5. 读完回来标记:哪些类别你还不能 3 分钟内说出特殊参数