10-qm-basics 问答笔记¶

源文件：10-qm-basics.md

Q1：为什么储存 ψ 需要 grid^(3N) 复数？ML 大模型的量级是多少作为对比¶

原文："直接存 ψ 需要 grid^{3N} 个复数，指数爆炸"

为什么是 grid^(3N)¶

多电子波函数 $\psi(\vec{r}_1, \vec{r}_2, \ldots, \vec{r}_N)$ 的输入： - 每个电子 $i$ 的位置 $\vec{r}_i \in \mathbb{R}^3$（3 个实数） - N 个电子 → 输入总维度 = $3N$ 个实数

离散化存储： - 把每个空间维度切成 $g$ 个网格点（如 $g = 100$） - 网格上的取值数 = $g \times g \times \ldots \times g$（共 $3N$ 次）= $g^{3N}$ - 每个网格点上的值是 1 个复数（2 个实数）→ 总存储 $= 2 g^{3N}$ 实数

追问：3N 个实数为什么要切网格？只存 3N 个实数不就行了

这是最关键的概念分水岭——你把波函数当成"3N 个数"了，但波函数是"3N 维空间上的函数"。这两者完全不是一个量级。

核心区别：函数 vs 函数的输入¶

概念	是什么
"3N 个实数"	函数的一个输入点（一组电子坐标的具体值）
波函数 $\psi$	整个函数本身——对所有可能的输入点都要给出一个值

要存的是后者，不是前者。

阶梯式类比¶

1 个 1D 函数 $f(x)$

输入 1 维（单个 $x$），但 $f$ 本身不是 1 个数——它是个函数。要存它，需要在很多 $x$ 上记录 $f(x)$：

x:        x_1     x_2     x_3    ...    x_g
f(x):    f(x_1)  f(x_2)  f(x_3)  ...   f(x_g)
存储量：g 个数

2D 图像 $I(x, y)$

输入 2 维。一张图不能"只存 2 个数"——那只是图上某一个像素的坐标。整张图要每个像素都存：

1000 × 1000 像素图 = 10^6 个值

3D 体素 $\rho(x, y, z)$

输入 3 维。一块 CT 扫描数据：

512 × 512 × 512 体素 = 1.3 × 10^8 个值

N 电子波函数 $\psi(\vec{r}_1, \vec{r}_2, \ldots, \vec{r}_N)$

输入 $3N$ 维。每个电子有 3 个坐标，N 个电子总共 $3N$ 个坐标。要在所有可能的电子位置组合上给一个 $\psi$ 值：

g 个 x_1 × g 个 y_1 × g 个 z_1 ×        ← 电子 1 的所有可能位置
g 个 x_2 × g 个 y_2 × g 个 z_2 ×        ← 电子 2 的所有可能位置
...
g 个 x_N × g 个 y_N × g 个 z_N           ← 电子 N 的所有可能位置
= g^(3N)  组合

你的描述其实自己说对了¶

你写的"每个实数有 g 个值的选择，而且还需要把所有 3N 个实数的组合都保存下来"——这正是问题的本质。

为什么必须存所有组合？因为电子之间是耦合的，$\psi$ 在不同组合下的值互相独立：

$\psi(\vec{r}_1=A, \vec{r}_2=B)$ 是一个值
$\psi(\vec{r}_1=A, \vec{r}_2=C)$ 是另一个值
$\psi(\vec{r}_1=B, \vec{r}_2=C)$ 又是另一个值
……

这些值不能从单粒子信息推出（如果能推，那就是 Slater 行列式了——化简 2 干的事）。所以必须存"所有组合"。

ML 类比¶

ML 概念	对应
神经网络 $f_\theta(x)$ 的输入维度 $d$	波函数的输入维度 $3N$
一个具体的输入向量 $x \in \mathbb{R}^d$	一组具体的电子位置 $(\vec{r}_1, \ldots, \vec{r}_N)$
模型的参数 $\theta$（常被压缩）	波函数本身的所有"取值"（不参数化）
在所有 $x$ 上枚举模型输出	在所有 $(\vec{r}_1, \ldots, \vec{r}_N)$ 上枚举 $\psi$

关键：ML 模型用 $\theta$ 参数化函数（用 GB 级参数代替整个函数表），而波函数没有自然的"压缩参数化"——理论上它是希尔伯特空间里的元素，没有简单的有限参数表达。

如果你强行参数化波函数（比如用 NN 表示 $\psi_\theta$），就是 Neural Network Quantum States（Carleo & Troyer 2017）。它能压缩存储但需要变分训练。这是 QMC + ML 的研究方向。

DFT 的"骚操作"¶

DFT 不去存 $\psi$——而是发现"基态的所有物理信息可以从 3 维密度 $\rho(\vec{r})$ 提取"（HK 定理）。3 维 vs 3N 维就是质的飞跃。

量	维度	$g=100$ 时存储
$\psi(\vec{r}_1, ..., \vec{r}_N)$（N=10）	30 维	$10^{60}$ 数
$\rho(\vec{r})$	3 维	$10^{6}$ 数

比例：$10^{54}$ 倍。这就是为什么 HK 定理是诺贝尔奖工作。

几个具体量级（取 $g = 100$，每复数 16 字节）：

N（电子数）	$g^{3N}$	存储需求
1（H 原子）	$10^6$	16 MB
2（He 原子）	$10^{12}$	16 TB
5（CH₄ 价电子）	$10^{30}$	远超人类总存储
10	$10^{60}$	数值上荒谬
20（一个小分子）	$10^{120}$	比宇宙原子数（$10^{80}$）还多 $10^{40}$ 倍

追问：对 H 原子，即使用电子密度降维，存储也要 16 MB？

表里的 16 MB 其实是波函数的存储量（不是密度），而对 H 原子这种单电子体系，波函数和密度的维度是一样的——DFT 的降维优势这时候显不出来。需要分三件事讲清楚：

1. 对单电子体系，波函数和密度维度相同¶

量	对 H 原子（1 电子）的输入维度
波函数 $\psi(\vec{r})$	3 维（电子的 $x,y,z$）
电子密度 $\rho(\vec{r}) = \\|\psi(\vec{r})\\|^2$	3 维（同样的 $x,y,z$）

离散化存储基本一样： - 波函数 $g^3 = 10^6$ 复数 × 16 字节 ≈ 16 MB - 密度 $g^3 = 10^6$ 实数 × 8 字节 ≈ 8 MB

所以"DFT 降维"对 H 原子几乎无效——因为一开始就不是多维多体问题。

2. DFT 降维在多电子体系才产生天文级效益¶

体系	$\psi$ 维度	$\psi$ 存储（$g^3$ 网格）	$\rho$ 维度	$\rho$ 存储	压缩比
H（1 电子）	3	$10^6$	3	$10^6$	1 倍（没省）
He（2 电子）	6	$10^{12}$	3	$10^6$	$10^6$ 倍
CH₄（10 价电子）	30	$10^{60}$	3	$10^6$	$10^{54}$ 倍
Si 原胞（8 价电子）	24	$10^{48}$	3	$10^6$	$10^{42}$ 倍

结论：体系越大，DFT 越赚。对最小的 H 原子，DFT 只是"能跑"，没什么优势；对 Si、CH₄ 这种真实化学/材料问题，DFT 让不可能变可能。

3. 实际 DFT 存储远小于 $g^3$ —— 用基组展开¶

前面所有"$g^3$"假设的是实空间均匀网格离散化。真实 DFT 软件（如 QE）用平面波基组（化简 8），只存系数不存全网格：

对典型 Si 原胞（8 价电子），ecutwfc=40 Ry 下：

存的东西	大小
每个 k 点的平面波数 $N_{PW}$	~2000
密度的傅里叶系数数（$N_\rho \sim 4 N_{PW}$）	~8000
KS 轨道数 $N_{orb}$	~16（8 价电子 × 2 能带 buffer）
每 k 点的 KS 轨道存储	$N_{orb} \times N_{PW}$ 复数 ≈ 500 KB
所有 k 点（~30 个不可约）	~15 MB
密度（单份）	~60 KB

整个 Si vc-relax 计算内存峰值大约几百 MB，比 $g^{3N} = 10^{48}$ 的理论极限小 $10^{40}$+ 倍。

4. 总结：三层压缩¶

DFT 为什么能在笔记本电脑上跑？因为它串联了三个关键压缩：

暴力存波函数
  ~ g^(3N) 复数 ~ 10^60 ← 天文级
         │
         ↓ 化简 3 (HK 定理)：波函数 → 密度，3N 维 → 3 维
         │
  ~ g^3 实数 ~ 10^6 ← 可行但还是多
         │
         ↓ 化简 7–10 (Bloch + 基组 + k 采样)：网格 → 傅里叶系数
         │
  ~ N_PW × N_orb × N_k ~ 10^6~10^8 ← 实际存储
         │
         ↓ 工程实现（FFT、SCF、对角化优化）
         │
  现代 DFT 单点计算：秒-分钟，内存 GB 级

第一层（HK 降维）：对多电子体系才见效 第二层（基组展开）：对所有体系都见效，是实际可行的关键 第三层（数值优化）：让已经可行的计算变快

你原问题的本质：H 原子只享受了第二、第三层压缩，没享受第一层——因为 H 本来就是单电子问题，没"多体"可压缩。

5. 对 H 原子，其实不用 DFT 更好¶

H 原子的薛定谔方程有解析解（$\psi_{nlm}$ 是众所周知的）。用 DFT 算 H 反而绕远路。DFT 的价值在 N ≥ 2 的耦合体系。

benchmark 里也没 H 原子单独作为材料——只有含氢化合物（如 LaH₁₀ 超导）。这时 H 和别的原子耦合，DFT 的三层压缩才都用得上。

这就是著名的 "exponential wall"（指数墙，Walter Kohn 1998 诺贝尔奖演讲用词）。

ML 大模型的量级对比¶

绝对参数数量（每参数 4 字节，FP32）：

模型	参数	存储（FP32）
ResNet-50	25M	100 MB
BERT-base	110M	440 MB
LLaMA 7B	7B	28 GB
LLaMA 70B	70B	280 GB
GPT-3	175B	700 GB
GPT-4（传闻 MoE）	~1.8T 总，~280B 激活	7.2 TB / 1.1 TB
现在最大模型（2026）	~10–100T 量级	100 TB 量级

对比结论：

	量级
ML 当前最大模型	$\sim 10^{14}$ 参数
一个 He 原子的波函数（2 电子，grid=100）	$\sim 10^{12}$ 复数（已经接近最大模型）
一个 5 价电子分子	$\sim 10^{30}$ 复数（比所有 ML 模型加起来多 16 个数量级）
100 价电子半导体片段	$\sim 10^{600}$ 复数（无意义）

ML 模型的"大"是线性增长（参数随宽度 / 深度多项式增长）；量子多体波函数是指数爆炸。这两件事根本不在一个量级。

这正是 DFT 必须存在的理由——必须把"3N 维波函数"压缩到"3 维密度"才有任何希望。

追问：既然都降到 10⁶，那为什么还需要后续一系列的化简？GPU 算力不够吗？

核心误区："10⁶ 个数"只是降维后的存储量，远不是完整计算量。DFT 后续化简不是为了省存储，而是为了让方程可解。让我拆开讲。

存储 vs 计算是两回事¶

量	Si 原胞典型值	性质
密度 $\rho(\vec{r})$ 存储	~几 MB	一次性占用
KS 轨道全部存储	~几十 MB	一次性占用
每次 KS 方程对角化的浮点运算数	~$N_{PW}^3 \sim 10^{10}$ 次	每次 SCF 迭代都重做
SCF 总迭代数	~10–50 次	倍乘计算量
vc-relax 外层 BFGS 步数	~5–20 次	再倍乘
一次完整 vc-relax 总 FLOPS	~$10^{13}$	即使 GPU 也需要秒–分钟

存储 10⁶ 数据 × 每个数据参与 $10^{7}$ 次操作 = 大量运算。

化简不是"可选优化"，而是"算法必需"¶

以为 "降到 10⁶ 就够了，剩下 GPU 跑一下" 漏掉了关键事实——HK 定理只告诉你"存在 $E[\rho]$ 最小对应基态"，但没告诉你怎么找基态。光有密度的存储空间，不知道怎么算就等于没有。后续化简填的正是"怎么算"的空白：

化简步骤	不是为了省存储，是为了让……
4 KS 方程	有具体的求解算法（$T[\rho]$ 显式写不出，必须引入虚构轨道）
5 XC 泛函	有可评估的能量表达式（$E_{xc}$ 必须近似）
6 赝势	让 ecutwfc 从 $10^4$ Ry 降到 $10^1$ Ry（否则基组爆炸到 $10^{12}$ 系数）
7 Bloch	让晶体（$10^{23}$ 原子）变成"原胞 + k 点"的可计算规模
8 平面波基组	让连续 PDE 变成矩阵特征值问题（有限维才能数值求解）
9 k 点采样	BZ 积分才能有限化
10 对称性	k 点数压缩到不可约集合（10–100 倍加速）
11 SCF 迭代	解决 $V_{eff} \leftrightarrow \rho$ 的循环依赖（没有 SCF 就根本无法求解）
12 BFGS	外层结构优化（没有这步只能算固定核位置的能量）

每一步都是"方程不这样变就根本解不出来"——不是"解得起但想省点事"。

GPU 算力现状¶

小 benchmark 材料（2–16 原子原胞）：CPU 分钟级、GPU 秒级 → 够用
催化表面 / 合金（100–500 原子）：GPU 小时级 → 勉强
真实复杂体系（10³–10⁴ 原子）：即使 GPU 集群也需要几天
量子磁性 / 强关联（DFT+U, DMFT）：GPU 加速有限，还需新算法

DFT 社区一直在做 GPU 移植（QE 的 -D__CUDA、VASP 的 GPU 版、FHI-aims GPU）和 linear-scaling 方法（把 $O(N^3)$ 降到 $O(N)$，用局域性）。即便这样，对超大体系仍然吃力。benchmark 里的 100 材料都是小原胞正是为了让计算可跑完。

结论¶

化简 1–12 的"每一步"都不是历史上的某个可选优化——而是上一步的结果无法直接求解，必须引入下一步的工具/近似才能继续往下做。跳过任何一步，整条链就断掉。GPU 只是让"算得快"，不能替代"算得出"。

为什么不能稀疏化？¶

追问：稀疏化是不是指用 NN 稀疏化波函数存储？

是的，这是其中一类。"稀疏化"在这里是广义的"用结构化参数化代替存全函数"，几种主流路径：

方法	本质	代表
张量网络	假设量子态的纠缠结构稀疏（1D / 低纠缠）	MPS / DMRG, MERA, PEPS
神经网络波函数 (NNQS)	用 NN 参数化 $\psi_\theta(\vec{r}_1, \ldots, \vec{r}_N)$	Carleo & Troyer 2017, FermiNet (Pfau 2020), PauliNet
变分 QMC	Slater + Jastrow（用一个关联因子修正）	Casino, QMCPACK
CI / CCSD(T) / FCI	多 Slater 行列式的有限组合	Gaussian, PySCF

共同点：用"少量参数 $\theta$" 代替"全网格枚举"。本质都是对希尔伯特空间做某种结构假设。

ML 类比： - 存全函数 = 像 KNN，存所有 $(x, y)$ 对 - 稀疏化 = 用参数化模型 $f_\theta(x)$ 代替查表，$\theta$ 只需 MB-GB 量级

追问：基组不完备是什么意思？

"基组"（basis set）= 用来展开波函数的一组已知函数：$\psi(\vec{r}) = \sum_i c_i \phi_i(\vec{r})$

"完备"（complete）= 该基组能精确表示希尔伯特空间里的任意函数（至少极限意义下）。

基组	是否完备
无限个平面波（傅里叶基）	✅ 完备
截断后的有限平面波（化简 8 实际用的）	❌ 不完备，是完备基的有限子空间
无限个高斯基函数	✅ 完备（高斯函数族完备）
实际有限高斯基组（GTO）	❌ 不完备
单 Slater 行列式（HF）	❌ 不完备（无法描述电子关联）
FCI（所有 Slater 组合）	✅ 完备，但参数爆炸
MPS（固定 bond dimension）	❌ 不完备（只能描述低纠缠态）
NNQS（固定 NN 架构）	❌ 不完备（受 NN 容量和优化限制）

不完备的代价：得到的解是"在子空间里的最优"，不是真正的最优。对物理体系而言，可能漏掉真实基态的关键特征（如强关联系统的多参考特性）。

DFT 的聪明之处：承认"单 Slater + $E_{xc}$ 近似"不完备，但通过选好 $E_{xc}$ 泛函把误差控制在 meV/atom 量级，对大多数体系够用。代价是对强关联体系（NiO、高温超导）DFT 会失效。

ML 类比： - 线性模型 = 不完备（只能表示线性关系） - 足够宽的 MLP = 理论完备（万能逼近定理） - 实际训练的 NN = 事实不完备（受优化和归纳偏置限制）

回到原文的意思¶

理论上可以——这就是张量网络（MPS, MERA）、神经网络波函数（Carleo & Troyer 2017）、QMC 等方法的思路。但它们都要付出"基组不完备"的代价，对一般体系不如 DFT 通用。DFT 通过 HK 定理和 KS 框架，把整个问题搬到了"3 维 + N 个轨道"的可控规模。

Q2：QM 的全称是什么¶

原文："波函数为什么是概率幅？为什么是复值？"

QM = Quantum Mechanics（量子力学）。

为了一致，列一下笔记里出现的常见缩写：

缩写	全称	中文
QM	Quantum Mechanics	量子力学
QFT	Quantum Field Theory	量子场论
QC	Quantum Chemistry	量子化学
DFT	Density Functional Theory	密度泛函理论
KS-DFT	Kohn-Sham DFT	KS 形式的 DFT
HF	Hartree-Fock	哈特里-福克
CI	Configuration Interaction	组态相互作用
CCSD(T)	Coupled Cluster with Singles, Doubles, perturbative Triples	耦合簇方法
FCI	Full CI	完全组态相互作用
SCF	Self-Consistent Field	自洽场
BO	Born-Oppenheimer	玻恩-奥本海默
HK	Hohenberg-Kohn	霍亨贝格-科恩
BZ	Brillouin Zone	布里渊区
LDA / GGA	Local Density / Generalized Gradient Approximation	局域密度 / 广义梯度近似

Q3：相位信息的物理含义是什么¶

原文："相位信息没丢失（干涉时恢复），只是测量时看不见"

复值波函数可以拆成 模 × 相位： $$\psi(\vec{r}) = |\psi(\vec{r})| \cdot e^{i\phi(\vec{r})}$$

$|\psi|^2$ → 概率密度（直接可观测）
$\phi$ → 相位（单点不可观测，但相位差可观测）

相位的关键效应¶

1. 干涉（interference）

两路波叠加： $$\psi_{total} = \psi_1 + \psi_2$$ $$|\psi_{total}|^2 = |\psi_1|^2 + |\psi_2|^2 + 2|\psi_1||\psi_2|\cos(\phi_1 - \phi_2)$$

最后那个交叉项就是相位差导致的干涉。如果只用 $|\psi|^2$（不带相位）的概率分布相加，永远看不到这个项——量子力学退化成经典概率。

实验上：双缝干涉、电子衍射、量子计算（量子算法本质都靠相位干涉加速）。

2. 时间演化（phase oscillation）

定态波函数随时间演化： $$\psi(\vec{r}, t) = \psi(\vec{r}) \cdot e^{-iEt/\hbar}$$

单态的相位随能量振荡
不同能级叠加态的相位差随时间演化 → 概率随时间振荡（如 Rabi 振荡、量子拍频）

3. 化学键（bonding）

两个原子轨道叠加： $$\psi_{bonding} = \psi_A + \psi_B \quad (\text{同相 → 成键})$$ $$\psi_{anti-bonding} = \psi_A - \psi_B \quad (\text{反相 → 反键})$$

HOMO-LUMO 分布的对称性、化学反应规则（Woodward-Hoffmann），都是相位的体现。

4. 拓扑相（Berry phase）

电子绕一个闭合路径回到原位置，可能积累一个非平凡相位（Berry phase）。这是拓扑材料的核心：拓扑绝缘体、霍尔效应、Chern 数都靠 Berry phase 定义。

ML 类比¶

复值神经网络（complex-valued NN）：参数和激活都是复数，能更紧凑地表示某些信号（图像 FFT、雷达、语音）。它们的"相位"也起类似作用——相加时干涉
Attention 机制：query · key 的内积包含"方向"信息（不仅大小），类似相位的相对值决定权重
GAN / diffusion 的隐变量：单个隐变量值不可观测，但变化时（路径）可观测——类似相位差

结论¶

相位是量子力学的"隐变量"——单点测不到，但参与所有相互作用、决定一切非经典现象。如果舍弃相位，量子力学就退化为经典概率论：没有干涉、没有隧穿、没有能带、没有化学键、没有 DFT。

Q4：算符的"作用"具体怎么运算？运算规则？一维例子？¶

原文表格列出了位置 / 动量 / 动能 / 势能 / 哈密顿量算符

算符的本质¶

算符 = 函数 → 函数的映射（不是数 → 数）。

把它当成一个"机器"：吃进去一个波函数 $\psi(\vec{r})$，吐出来一个新函数。

形式上记作 $\hat{A}: \psi \mapsto \hat{A}\psi$，或者更明确写成 $(\hat{A}\psi)(\vec{r})$。

五种算符的具体计算规则¶

位置 $\hat{x}$（一维）：在每个点上用 $x$ 乘 $$(\hat{x}\psi)(x) = x \cdot \psi(x)$$

动量 $\hat{p}$：求导后乘 $-i\hbar$ $$(\hat{p}\psi)(x) = -i\hbar \frac{d\psi(x)}{dx}$$

动能 $\hat{T}$：二阶导 $$(\hat{T}\psi)(x) = -\frac{\hbar^2}{2m} \frac{d^2\psi(x)}{dx^2}$$

势能 $\hat{V}$：在每个点上用 $V(x)$ 乘 $$(\hat{V}\psi)(x) = V(x) \cdot \psi(x)$$

哈密顿 $\hat{H}$：动能 + 势能 $$(\hat{H}\psi)(x) = -\frac{\hbar^2}{2m}\frac{d^2\psi}{dx^2} + V(x)\psi(x)$$

一维具体例子¶

例 1：自由粒子，平面波 $\psi(x) = e^{ikx}$

\[\hat{p}\psi = -i\hbar \frac{d}{dx} e^{ikx} = -i\hbar \cdot (ik) \cdot e^{ikx} = \hbar k \cdot e^{ikx}\]

得到 $\hat{p}\psi = \hbar k \cdot \psi$。这就是本征方程：$\psi = e^{ikx}$ 是 $\hat{p}$ 的本征态，本征值 $\hbar k$（动量）。

\[\hat{T}\psi = -\frac{\hbar^2}{2m} \frac{d^2}{dx^2} e^{ikx} = -\frac{\hbar^2}{2m} \cdot (-k^2) \cdot e^{ikx} = \frac{\hbar^2 k^2}{2m} \psi\]

动能本征值 $E_T = \hbar^2 k^2 / 2m$（经典动能 $p^2/2m$）。

例 2：高斯波包 $\psi(x) = (\sigma\sqrt{\pi})^{-1/2} e^{-x^2/(2\sigma^2)}$（已归一化）

\[\hat{x}\psi = x \cdot (\sigma\sqrt{\pi})^{-1/2} e^{-x^2/(2\sigma^2)}\]

它不是 $\hat{x}$ 的本征态（不能写成 $a \psi$ 形式）。

算位置期望值： $$\langle \hat{x} \rangle = \int_{-\infty}^{\infty} \psi^* x \psi \, dx = \int x \cdot |\psi|^2 dx = 0 \text{（被积函数奇）}$$

算位置不确定度： $$\langle \hat{x}^2 \rangle = \int x^2 |\psi|^2 dx = \frac{\sigma^2}{2}$$ $$\Delta x = \sqrt{\langle \hat{x}^2 \rangle - \langle \hat{x} \rangle^2} = \frac{\sigma}{\sqrt{2}}$$

类似可以算 $\Delta p = \hbar/(\sigma\sqrt{2})$，验证海森堡不确定性 $\Delta x \cdot \Delta p = \hbar/2$（高斯包是不确定性的下界）。

例 3：一维谐振子的基态 $\psi_0(x) = (m\omega/\pi\hbar)^{1/4} e^{-m\omega x^2/(2\hbar)}$

应用 $\hat{H} = -\frac{\hbar^2}{2m}\partial_x^2 + \frac{1}{2}m\omega^2 x^2$：

\[\hat{H}\psi_0 = E_0 \psi_0, \quad E_0 = \frac{1}{2}\hbar\omega\]

这就是著名的"零点能"——基态都不是静止，仍有 $\hbar\omega/2$ 动能。可以手动求二阶导验证。

ML 类比：算符 ↔ 矩阵¶

在有限维（离散化后），算符变成矩阵，波函数变成向量：

QM 算符	离散化后矩阵
$\hat{T} = -\frac{\hbar^2}{2m}\nabla^2$	二阶差分矩阵（带状）
$\hat{V}$	对角矩阵（值为 $V(x_i)$）
$\hat{H} = \hat{T} + \hat{V}$	上面两个相加
$\hat{p}$	一阶差分矩阵（反厄米）

之后 KS 方程 $\hat{H}\phi = \varepsilon \phi$ 在基组下就是矩阵特征值问题 $H \vec{c} = \varepsilon S \vec{c}$。一维例子和大尺度 KS 计算的本质一样，只是规模不同。

Q5：本征值是什么¶

原文："厄米性保证本征值是实数"

数学定义¶

如果存在函数 $\psi$ 和数 $a$，使得： $$\hat{A} \psi = a \psi$$

那么： - $\psi$ 是 $\hat{A}$ 的本征态（eigenstate / eigenfunction） - $a$ 是对应的本征值（eigenvalue）

意思是：$\hat{A}$ 作用在 $\psi$ 上后，形状不变，只是按比例 $a$ 缩放。

物理意义（最重要）¶

测量公设（QM 第三公设）：

对处于状态 $\psi$ 的系统测量物理量 $A$，唯一可能得到的结果是 $\hat{A}$ 的某个本征值 $a_n$。测量后系统坍缩到对应的本征态 $\psi_n$。

换句话说： - 你不可能测出 $\hat{A}$ 的非本征值 - 测量是离散的、概率性的 - 测到 $a_n$ 的概率 = $|\langle \psi_n | \psi \rangle|^2$（当前态在该本征态上的"投影"）

例子¶

氢原子能级：$\hat{H}$ 的本征值是 $$E_n = -\frac{13.6 \text{ eV}}{n^2}, \quad n = 1, 2, 3, \ldots$$

测氢原子的能量，结果只能是 $-13.6$ eV、$-3.4$ eV、$-1.51$ eV、… 中的一个——量子化的来源。

自由粒子动量：$\hat{p}$ 的本征值是连续的 $\hbar k$，$k \in \mathbb{R}$。所以自由粒子的动量谱连续。

Si 晶体能带：$\hat{H}$ 的本征值是 $\varepsilon_n(\vec{k})$，对每个 $\vec{k}$ 是离散集合，对所有 $\vec{k}$ 形成连续能带。

厄米算符 → 实本征值¶

物理量的测量结果必须是实数（不能测出 "1+2i 焦耳"）。所以表示物理量的算符必须保证本征值是实数。厄米算符的所有本征值都是实数——这是 QM 公设要求 $\hat{A}$ 是厄米的根本原因。

ML 类比¶

PCA：协方差矩阵 $\Sigma$ 是对称的（厄米的实数版本），它的特征向量 = 主成分方向，特征值 = 该方向上的方差
谱聚类：拉普拉斯矩阵的特征向量给出聚类
NN 训练：海森矩阵的特征值告诉你 loss 在每个方向的"陡峭程度"，控制 Adam 等的步长

数学结构完全一致：对称（厄米）矩阵的特征值实数 + 特征向量正交。QM 把这个数学结构和物理"测量"挂起来了。

Q6：phi 是什么¶

原文："$\langle \phi | \hat{A} \psi \rangle = \langle \hat{A} \phi | \psi \rangle$"

在 $\langle \phi | \psi \rangle$ 这种内积（inner product）记号里，$\phi$ 和 $\psi$ 都只是任意波函数的占位符（类似 ML 公式里的 $\vec{a}, \vec{b}$）。

内积的定义¶

\[\langle \phi | \psi \rangle \equiv \int \phi^*(\vec{r}) \, \psi(\vec{r}) \, d\vec{r}\]

$\phi^*$ 是 $\phi$ 的复共轭。这就是希尔伯特空间里两个函数的内积。

物理含义¶

Dirac bra-ket 记号（绕开 $\phi$ 是什么的混乱）¶

QM 的 Dirac 记号统一了符号： - $|\psi\rangle$ — "ket"，状态向量 - $\langle \phi |$ — "bra"，对偶向量 - $\langle \phi | \psi \rangle$ — "bra · ket = bracket"，内积 - $\langle \phi | \hat{A} | \psi \rangle$ — 算符的"矩阵元"

线性代数类比¶

$\langle \phi | \psi \rangle$ ↔ $\vec{u}^* \cdot \vec{v}$（向量内积，复数版本）

$\langle \phi | \hat{A} | \psi \rangle$ ↔ $\vec{u}^* A \vec{v}$（矩阵的双侧投影）

如果你熟悉 PyTorch：torch.dot(u.conj(), v) 是内积；u.conj() @ A @ v 是矩阵元。

厄米性的意思¶

$\langle \phi | \hat{A} \psi \rangle = \langle \hat{A} \phi | \psi \rangle$ 等价于矩阵的 $\vec{u}^* A \vec{v} = (A\vec{u})^* \vec{v} = \vec{u}^* A^\dagger \vec{v}$，所以 $A = A^\dagger$（自共轭转置）——这就是矩阵厄米的定义。

Q7：为什么期望值是这种"夹的形式"¶

原文："积分 $\int \psi^* \hat{A} \psi$ 在离散化后就是 $c^\dagger A c$（三明治形式）"

为什么必须"夹"¶

期望值定义： $$\langle \hat{A} \rangle_\psi = \int \psi^*(\vec{r}) \, \hat{A} \, \psi(\vec{r}) \, d\vec{r}$$

两个原因：

1. 算符是"机器"，结果是"函数"，需要再投影回数

$\psi$ 是函数
$\hat{A}\psi$ 还是函数（算符吃函数吐函数）
物理量的期望值是一个数
要把"函数"变成"数"，需要再用 $\psi^*$ "投影" → 内积积分

整个流程：

ψ  ──作用 Â──→  Â·ψ   ──夹 ψ*──→  ⟨A⟩ ∈ ℝ
函数              函数               数

2. 概率加权平均的物理来源

把 $\psi$ 在 $\hat{A}$ 的本征基下展开： $$\psi = \sum_n c_n \psi_n, \quad \hat{A}\psi_n = a_n \psi_n$$

那么： $$\hat{A}\psi = \sum_n a_n c_n \psi_n$$

夹 $\psi^*$ 积分（用本征态的正交性 $\langle \psi_m | \psi_n \rangle = \delta_{mn}$）： $$\langle \hat{A} \rangle = \int \psi^* \hat{A}\psi = \sum_{m,n} c_m^* a_n c_n \delta_{mn} = \sum_n |c_n|^2 a_n$$

这正是经典概率的期望值定义：每个可能结果 $a_n$ 乘以它的概率 $|c_n|^2$，然后求和。

类比线性代数（最直观）¶

离散化后 $\psi \to \vec{c} \in \mathbb{C}^N$，$\hat{A} \to A \in \mathbb{C}^{N \times N}$，积分 → 求和：

\[\int \psi^* \hat{A} \psi \, d\vec{r} \quad \longleftrightarrow \quad \vec{c}^\dagger A \vec{c}\]

这种 $\vec{c}^\dagger A \vec{c}$ 就是 ML/数值线性代数里熟悉的二次型（quadratic form），又叫 Rayleigh quotient（瑞利商，分母 $\vec{c}^\dagger\vec{c}$ 归一化）。

ML 中的等价场景： - PCA：找 $\vec{v}$ 最大化 $\vec{v}^T \Sigma \vec{v}$，即数据在 $\vec{v}$ 方向的方差最大 - QM 变分原理：找 $\psi$ 最小化 $\langle \psi | \hat{H} | \psi \rangle$，即基态能量 - 数学完全相同！

为什么是 $\psi^*$ 而不是 $\psi$？¶

复希尔伯特空间的内积要保证： - $\langle \psi | \psi \rangle \geq 0$（实数非负，可解释为概率） - 用 $\psi^* \cdot \psi = |\psi|^2$ 自然满足

如果只用 $\psi \cdot \psi$（不取共轭），结果是复数（如 $\psi = e^{i\theta}$ 时 $\psi^2 = e^{2i\theta}$），不能解释为概率。

ML 类比：实数 PCA 用 $\vec{v}^T \Sigma \vec{v}$；复数版本（如 FFT 的 power spectrum）必须用 $\vec{v}^* \Sigma \vec{v}$。同理。

对 DFT 的实用意义¶

QE 算的所有"物理量"都是这种形式： - 总能量：$E = \langle \psi | \hat{H} | \psi \rangle$ - 力：$\vec{F}_I = -\langle \psi | \partial \hat{H} / \partial \vec{R}_I | \psi \rangle$（Hellmann-Feynman 定理） - 应力：$\sigma = \langle \psi | \partial \hat{H} / \partial \epsilon | \psi \rangle$

每个 QE 输出的数字都是某种"夹"出来的。

本轮 7 个问题速览¶

#	主题
Q1	grid^(3N) 的指数爆炸 vs ML 模型最大 ~10¹⁴ 参数（差几十个数量级）
Q2	QM = Quantum Mechanics + 常用缩写表
Q3	相位是 QM 的"隐变量"，决定干涉/化学键/拓扑/时间演化
Q4	算符 = 函数→函数；1D 平面波/高斯包/谐振子例子 + 矩阵类比
Q5	本征值 = 测量唯一可能的结果，厄米保证实数
Q6	$\phi$ 是任意波函数占位符，⟨φ\|ψ⟩ 是希尔伯特空间内积
Q7	期望值的"夹"是因为算符吃函数吐函数，需 ψ* 投影回数；本征展开给出概率加权平均

ML 概念	对应
神经网络 \(f_\theta(x)\) 的输入维度 \(d\)	波函数的输入维度 \(3N\)
一个具体的输入向量 \(x \in \mathbb{R}^d\)	一组具体的电子位置 \((\vec{r}_1, \ldots, \vec{r}_N)\)
模型的参数 \(\theta\)（常被压缩）	波函数本身的所有"取值"（不参数化）
在所有 \(x\) 上枚举模型输出	在所有 \((\vec{r}_1, \ldots, \vec{r}_N)\) 上枚举 \(\psi\)

量	维度	\(g=100\) 时存储
\(\psi(\vec{r}_1, ..., \vec{r}_N)\)（N=10）	30 维	\(10^{60}\) 数
\(\rho(\vec{r})\)	3 维	\(10^{6}\) 数

量	对 H 原子（1 电子）的输入维度
波函数 \(\psi(\vec{r})\)	3 维（电子的 \(x,y,z\)）
电子密度 \(\rho(\vec{r}) = \\|\psi(\vec{r})\\|^2\)	3 维（同样的 \(x,y,z\)）

体系	\(\psi\) 维度	\(\psi\) 存储（\(g^3\) 网格）	\(\rho\) 维度	\(\rho\) 存储	压缩比
H（1 电子）	3	\(10^6\)	3	\(10^6\)	1 倍（没省）
He（2 电子）	6	\(10^{12}\)	3	\(10^6\)	\(10^6\) 倍
CH₄（10 价电子）	30	\(10^{60}\)	3	\(10^6\)	\(10^{54}\) 倍
Si 原胞（8 价电子）	24	\(10^{48}\)	3	\(10^6\)	\(10^{42}\) 倍

概念	是什么
"3N 个实数"	函数的一个输入点（一组电子坐标的具体值）
波函数 \(\psi\)	整个函数本身——对所有可能的输入点都要给出一个值

存的东西	大小
每个 k 点的平面波数 \(N_{PW}\)	~2000
密度的傅里叶系数数（\(N_\rho \sim 4 N_{PW}\)）	~8000
KS 轨道数 \(N_{orb}\)	~16（8 价电子 × 2 能带 buffer）
每 k 点的 KS 轨道存储	\(N_{orb} \times N_{PW}\) 复数 ≈ 500 KB
所有 k 点（~30 个不可约）	~15 MB
密度（单份）	~60 KB

	量级
ML 当前最大模型	\(\sim 10^{14}\) 参数
一个 He 原子的波函数（2 电子，grid=100）	\(\sim 10^{12}\) 复数（已经接近最大模型）
一个 5 价电子分子	\(\sim 10^{30}\) 复数（比所有 ML 模型加起来多 16 个数量级）
100 价电子半导体片段	\(\sim 10^{600}\) 复数（无意义）

量	Si 原胞典型值	性质
密度 \(\rho(\vec{r})\) 存储	~几 MB	一次性占用
KS 轨道全部存储	~几十 MB	一次性占用
每次 KS 方程对角化的浮点运算数	~\(N_{PW}^3 \sim 10^{10}\) 次	每次 SCF 迭代都重做
SCF 总迭代数	~10–50 次	倍乘计算量
vc-relax 外层 BFGS 步数	~5–20 次	再倍乘
一次完整 vc-relax 总 FLOPS	~\(10^{13}\)	即使 GPU 也需要秒–分钟

化简步骤	不是为了省存储，是为了让……
4 KS 方程	有具体的求解算法（\(T[\rho]\) 显式写不出，必须引入虚构轨道）
5 XC 泛函	有可评估的能量表达式（\(E_{xc}\) 必须近似）
6 赝势	让 ecutwfc 从 \(10^4\) Ry 降到 \(10^1\) Ry（否则基组爆炸到 \(10^{12}\) 系数）
7 Bloch	让晶体（\(10^{23}\) 原子）变成"原胞 + k 点"的可计算规模
8 平面波基组	让连续 PDE 变成矩阵特征值问题（有限维才能数值求解）
9 k 点采样	BZ 积分才能有限化
10 对称性	k 点数压缩到不可约集合（10–100 倍加速）
11 SCF 迭代	解决 \(V_{eff} \leftrightarrow \rho\) 的循环依赖（没有 SCF 就根本无法求解）
12 BFGS	外层结构优化（没有这步只能算固定核位置的能量）

QM 算符	离散化后矩阵
\(\hat{T} = -\frac{\hbar^2}{2m}\nabla^2\)	二阶差分矩阵（带状）
\(\hat{V}\)	对角矩阵（值为 \(V(x_i)\)）
\(\hat{H} = \hat{T} + \hat{V}\)	上面两个相加
\(\hat{p}\)	一阶差分矩阵（反厄米）

10-qm-basics 问答笔记¶

Q1：为什么储存 ψ 需要 grid^(3N) 复数？ML 大模型的量级是多少作为对比¶

为什么是 grid^(3N)¶

核心区别：函数 vs 函数的输入¶

阶梯式类比¶

你的描述其实自己说对了¶

ML 类比¶

DFT 的"骚操作"¶

1. 对单电子体系，波函数和密度维度相同¶

2. DFT 降维在多电子体系才产生天文级效益¶

3. 实际 DFT 存储远小于 \(g^3\) —— 用基组展开¶

4. 总结：三层压缩¶

5. 对 H 原子，其实不用 DFT 更好¶

ML 大模型的量级对比¶

存储 vs 计算是两回事¶

化简不是"可选优化"，而是"算法必需"¶

GPU 算力现状¶

结论¶

为什么不能稀疏化？¶

回到原文的意思¶

Q2：QM 的全称是什么¶

Q3：相位信息的物理含义是什么¶

相位的关键效应¶

ML 类比¶

结论¶

Q4：算符的"作用"具体怎么运算？运算规则？一维例子？¶

算符的本质¶

五种算符的具体计算规则¶

一维具体例子¶

ML 类比：算符 ↔ 矩阵¶

Q5：本征值是什么¶

数学定义¶

物理意义（最重要）¶

例子¶

厄米算符 → 实本征值¶

ML 类比¶

Q6：phi 是什么¶

内积的定义¶

物理含义¶

Dirac bra-ket 记号（绕开 \(\phi\) 是什么的混乱）¶

线性代数类比¶

厄米性的意思¶

Q7：为什么期望值是这种"夹的形式"¶

为什么必须"夹"¶

类比线性代数（最直观）¶

为什么是 \(\psi^*\) 而不是 \(\psi\)？¶

对 DFT 的实用意义¶

本轮 7 个问题速览¶