10-qm-basics 问答笔记¶
源文件:10-qm-basics.md
Q1:为什么储存 ψ 需要 grid^(3N) 复数?ML 大模型的量级是多少作为对比¶
原文:"直接存 ψ 需要 grid^{3N} 个复数,指数爆炸"
为什么是 grid^(3N)¶
多电子波函数 \(\psi(\vec{r}_1, \vec{r}_2, \ldots, \vec{r}_N)\) 的输入: - 每个电子 \(i\) 的位置 \(\vec{r}_i \in \mathbb{R}^3\)(3 个实数) - N 个电子 → 输入总维度 = \(3N\) 个实数
离散化存储: - 把每个空间维度切成 \(g\) 个网格点(如 \(g = 100\)) - 网格上的取值数 = \(g \times g \times \ldots \times g\)(共 \(3N\) 次)= \(g^{3N}\) - 每个网格点上的值是 1 个复数(2 个实数)→ 总存储 \(= 2 g^{3N}\) 实数
追问:3N 个实数为什么要切网格?只存 3N 个实数不就行了
这是最关键的概念分水岭——你把波函数当成"3N 个数"了,但波函数是"3N 维空间上的函数"。这两者完全不是一个量级。
核心区别:函数 vs 函数的输入¶
| 概念 | 是什么 |
|---|---|
| "3N 个实数" | 函数的一个输入点(一组电子坐标的具体值) |
| 波函数 \(\psi\) | 整个函数本身——对所有可能的输入点都要给出一个值 |
要存的是后者,不是前者。
阶梯式类比¶
1 个 1D 函数 \(f(x)\)
输入 1 维(单个 \(x\)),但 \(f\) 本身不是 1 个数——它是个函数。要存它,需要在很多 \(x\) 上记录 \(f(x)\):
2D 图像 \(I(x, y)\)
输入 2 维。一张图不能"只存 2 个数"——那只是图上某一个像素的坐标。整张图要每个像素都存:
3D 体素 \(\rho(x, y, z)\)
输入 3 维。一块 CT 扫描数据:
N 电子波函数 \(\psi(\vec{r}_1, \vec{r}_2, \ldots, \vec{r}_N)\)
输入 \(3N\) 维。每个电子有 3 个坐标,N 个电子总共 \(3N\) 个坐标。要在所有可能的电子位置组合上给一个 \(\psi\) 值:
g 个 x_1 × g 个 y_1 × g 个 z_1 × ← 电子 1 的所有可能位置
g 个 x_2 × g 个 y_2 × g 个 z_2 × ← 电子 2 的所有可能位置
...
g 个 x_N × g 个 y_N × g 个 z_N ← 电子 N 的所有可能位置
= g^(3N) 组合
你的描述其实自己说对了¶
你写的"每个实数有 g 个值的选择,而且还需要把所有 3N 个实数的组合都保存下来"——这正是问题的本质。
为什么必须存所有组合?因为电子之间是耦合的,\(\psi\) 在不同组合下的值互相独立:
- \(\psi(\vec{r}_1=A, \vec{r}_2=B)\) 是一个值
- \(\psi(\vec{r}_1=A, \vec{r}_2=C)\) 是另一个值
- \(\psi(\vec{r}_1=B, \vec{r}_2=C)\) 又是另一个值
- ……
这些值不能从单粒子信息推出(如果能推,那就是 Slater 行列式了——化简 2 干的事)。所以必须存"所有组合"。
ML 类比¶
| ML 概念 | 对应 |
|---|---|
| 神经网络 \(f_\theta(x)\) 的输入维度 \(d\) | 波函数的输入维度 \(3N\) |
| 一个具体的输入向量 \(x \in \mathbb{R}^d\) | 一组具体的电子位置 \((\vec{r}_1, \ldots, \vec{r}_N)\) |
| 模型的参数 \(\theta\)(常被压缩) | 波函数本身的所有"取值"(不参数化) |
| 在所有 \(x\) 上枚举模型输出 | 在所有 \((\vec{r}_1, \ldots, \vec{r}_N)\) 上枚举 \(\psi\) |
关键:ML 模型用 \(\theta\) 参数化函数(用 GB 级参数代替整个函数表),而波函数没有自然的"压缩参数化"——理论上它是希尔伯特空间里的元素,没有简单的有限参数表达。
如果你强行参数化波函数(比如用 NN 表示 \(\psi_\theta\)),就是 Neural Network Quantum States(Carleo & Troyer 2017)。它能压缩存储但需要变分训练。这是 QMC + ML 的研究方向。
DFT 的"骚操作"¶
DFT 不去存 \(\psi\)——而是发现"基态的所有物理信息可以从 3 维密度 \(\rho(\vec{r})\) 提取"(HK 定理)。3 维 vs 3N 维就是质的飞跃。
| 量 | 维度 | \(g=100\) 时存储 |
|---|---|---|
| \(\psi(\vec{r}_1, ..., \vec{r}_N)\)(N=10) | 30 维 | \(10^{60}\) 数 |
| \(\rho(\vec{r})\) | 3 维 | \(10^{6}\) 数 |
比例:\(10^{54}\) 倍。这就是为什么 HK 定理是诺贝尔奖工作。
几个具体量级(取 \(g = 100\),每复数 16 字节):
| N(电子数) | \(g^{3N}\) | 存储需求 |
|---|---|---|
| 1(H 原子) | \(10^6\) | 16 MB |
| 2(He 原子) | \(10^{12}\) | 16 TB |
| 5(CH₄ 价电子) | \(10^{30}\) | 远超人类总存储 |
| 10 | \(10^{60}\) | 数值上荒谬 |
| 20(一个小分子) | \(10^{120}\) | 比宇宙原子数(\(10^{80}\))还多 \(10^{40}\) 倍 |
追问:对 H 原子,即使用电子密度降维,存储也要 16 MB?
表里的 16 MB 其实是波函数的存储量(不是密度),而对 H 原子这种单电子体系,波函数和密度的维度是一样的——DFT 的降维优势这时候显不出来。需要分三件事讲清楚:
1. 对单电子体系,波函数和密度维度相同¶
| 量 | 对 H 原子(1 电子)的输入维度 |
|---|---|
| 波函数 \(\psi(\vec{r})\) | 3 维(电子的 \(x,y,z\)) |
| 电子密度 \(\rho(\vec{r}) = \|\psi(\vec{r})\|^2\) | 3 维(同样的 \(x,y,z\)) |
离散化存储基本一样: - 波函数 \(g^3 = 10^6\) 复数 × 16 字节 ≈ 16 MB - 密度 \(g^3 = 10^6\) 实数 × 8 字节 ≈ 8 MB
所以"DFT 降维"对 H 原子几乎无效——因为一开始就不是多维多体问题。
2. DFT 降维在多电子体系才产生天文级效益¶
| 体系 | \(\psi\) 维度 | \(\psi\) 存储(\(g^3\) 网格) | \(\rho\) 维度 | \(\rho\) 存储 | 压缩比 |
|---|---|---|---|---|---|
| H(1 电子) | 3 | \(10^6\) | 3 | \(10^6\) | 1 倍(没省) |
| He(2 电子) | 6 | \(10^{12}\) | 3 | \(10^6\) | \(10^6\) 倍 |
| CH₄(10 价电子) | 30 | \(10^{60}\) | 3 | \(10^6\) | \(10^{54}\) 倍 |
| Si 原胞(8 价电子) | 24 | \(10^{48}\) | 3 | \(10^6\) | \(10^{42}\) 倍 |
结论:体系越大,DFT 越赚。对最小的 H 原子,DFT 只是"能跑",没什么优势;对 Si、CH₄ 这种真实化学/材料问题,DFT 让不可能变可能。
3. 实际 DFT 存储远小于 \(g^3\) —— 用基组展开¶
前面所有"\(g^3\)"假设的是实空间均匀网格离散化。真实 DFT 软件(如 QE)用平面波基组(化简 8),只存系数不存全网格:
对典型 Si 原胞(8 价电子),ecutwfc=40 Ry 下:
| 存的东西 | 大小 |
|---|---|
| 每个 k 点的平面波数 \(N_{PW}\) | ~2000 |
| 密度的傅里叶系数数(\(N_\rho \sim 4 N_{PW}\)) | ~8000 |
| KS 轨道数 \(N_{orb}\) | ~16(8 价电子 × 2 能带 buffer) |
| 每 k 点的 KS 轨道存储 | \(N_{orb} \times N_{PW}\) 复数 ≈ 500 KB |
| 所有 k 点(~30 个不可约) | ~15 MB |
| 密度(单份) | ~60 KB |
整个 Si vc-relax 计算内存峰值大约几百 MB,比 \(g^{3N} = 10^{48}\) 的理论极限小 \(10^{40}\)+ 倍。
4. 总结:三层压缩¶
DFT 为什么能在笔记本电脑上跑?因为它串联了三个关键压缩:
暴力存波函数
~ g^(3N) 复数 ~ 10^60 ← 天文级
│
↓ 化简 3 (HK 定理):波函数 → 密度,3N 维 → 3 维
│
~ g^3 实数 ~ 10^6 ← 可行但还是多
│
↓ 化简 7–10 (Bloch + 基组 + k 采样):网格 → 傅里叶系数
│
~ N_PW × N_orb × N_k ~ 10^6~10^8 ← 实际存储
│
↓ 工程实现(FFT、SCF、对角化优化)
│
现代 DFT 单点计算:秒-分钟,内存 GB 级
第一层(HK 降维):对多电子体系才见效 第二层(基组展开):对所有体系都见效,是实际可行的关键 第三层(数值优化):让已经可行的计算变快
你原问题的本质:H 原子只享受了第二、第三层压缩,没享受第一层——因为 H 本来就是单电子问题,没"多体"可压缩。
5. 对 H 原子,其实不用 DFT 更好¶
H 原子的薛定谔方程有解析解(\(\psi_{nlm}\) 是众所周知的)。用 DFT 算 H 反而绕远路。DFT 的价值在 N ≥ 2 的耦合体系。
benchmark 里也没 H 原子单独作为材料——只有含氢化合物(如 LaH₁₀ 超导)。这时 H 和别的原子耦合,DFT 的三层压缩才都用得上。
这就是著名的 "exponential wall"(指数墙,Walter Kohn 1998 诺贝尔奖演讲用词)。
ML 大模型的量级对比¶
绝对参数数量(每参数 4 字节,FP32):
| 模型 | 参数 | 存储(FP32) |
|---|---|---|
| ResNet-50 | 25M | 100 MB |
| BERT-base | 110M | 440 MB |
| LLaMA 7B | 7B | 28 GB |
| LLaMA 70B | 70B | 280 GB |
| GPT-3 | 175B | 700 GB |
| GPT-4(传闻 MoE) | ~1.8T 总,~280B 激活 | 7.2 TB / 1.1 TB |
| 现在最大模型(2026) | ~10–100T 量级 | 100 TB 量级 |
对比结论:
| 量级 | |
|---|---|
| ML 当前最大模型 | \(\sim 10^{14}\) 参数 |
| 一个 He 原子的波函数(2 电子,grid=100) | \(\sim 10^{12}\) 复数(已经接近最大模型) |
| 一个 5 价电子分子 | \(\sim 10^{30}\) 复数(比所有 ML 模型加起来多 16 个数量级) |
| 100 价电子半导体片段 | \(\sim 10^{600}\) 复数(无意义) |
ML 模型的"大"是线性增长(参数随宽度 / 深度多项式增长);量子多体波函数是指数爆炸。这两件事根本不在一个量级。
这正是 DFT 必须存在的理由——必须把"3N 维波函数"压缩到"3 维密度"才有任何希望。
追问:既然都降到 10⁶,那为什么还需要后续一系列的化简?GPU 算力不够吗?
核心误区:"10⁶ 个数"只是降维后的存储量,远不是完整计算量。DFT 后续化简不是为了省存储,而是为了让方程可解。让我拆开讲。
存储 vs 计算是两回事¶
| 量 | Si 原胞典型值 | 性质 |
|---|---|---|
| 密度 \(\rho(\vec{r})\) 存储 | ~几 MB | 一次性占用 |
| KS 轨道全部存储 | ~几十 MB | 一次性占用 |
| 每次 KS 方程对角化的浮点运算数 | ~\(N_{PW}^3 \sim 10^{10}\) 次 | 每次 SCF 迭代都重做 |
| SCF 总迭代数 | ~10–50 次 | 倍乘计算量 |
| vc-relax 外层 BFGS 步数 | ~5–20 次 | 再倍乘 |
| 一次完整 vc-relax 总 FLOPS | ~\(10^{13}\) | 即使 GPU 也需要秒–分钟 |
存储 10⁶ 数据 × 每个数据参与 \(10^{7}\) 次操作 = 大量运算。
化简不是"可选优化",而是"算法必需"¶
以为 "降到 10⁶ 就够了,剩下 GPU 跑一下" 漏掉了关键事实——HK 定理只告诉你"存在 \(E[\rho]\) 最小对应基态",但没告诉你怎么找基态。光有密度的存储空间,不知道怎么算就等于没有。后续化简填的正是"怎么算"的空白:
| 化简步骤 | 不是为了省存储,是为了让…… |
|---|---|
| 4 KS 方程 | 有具体的求解算法(\(T[\rho]\) 显式写不出,必须引入虚构轨道) |
| 5 XC 泛函 | 有可评估的能量表达式(\(E_{xc}\) 必须近似) |
| 6 赝势 | 让 ecutwfc 从 \(10^4\) Ry 降到 \(10^1\) Ry(否则基组爆炸到 \(10^{12}\) 系数) |
| 7 Bloch | 让晶体(\(10^{23}\) 原子)变成"原胞 + k 点"的可计算规模 |
| 8 平面波基组 | 让连续 PDE 变成矩阵特征值问题(有限维才能数值求解) |
| 9 k 点采样 | BZ 积分才能有限化 |
| 10 对称性 | k 点数压缩到不可约集合(10–100 倍加速) |
| 11 SCF 迭代 | 解决 \(V_{eff} \leftrightarrow \rho\) 的循环依赖(没有 SCF 就根本无法求解) |
| 12 BFGS | 外层结构优化(没有这步只能算固定核位置的能量) |
每一步都是"方程不这样变就根本解不出来"——不是"解得起但想省点事"。
GPU 算力现状¶
- 小 benchmark 材料(2–16 原子原胞):CPU 分钟级、GPU 秒级 → 够用
- 催化表面 / 合金(100–500 原子):GPU 小时级 → 勉强
- 真实复杂体系(10³–10⁴ 原子):即使 GPU 集群也需要几天
- 量子磁性 / 强关联(DFT+U, DMFT):GPU 加速有限,还需新算法
DFT 社区一直在做 GPU 移植(QE 的 -D__CUDA、VASP 的 GPU 版、FHI-aims GPU)和 linear-scaling 方法(把 \(O(N^3)\) 降到 \(O(N)\),用局域性)。即便这样,对超大体系仍然吃力。benchmark 里的 100 材料都是小原胞正是为了让计算可跑完。
结论¶
化简 1–12 的"每一步"都不是历史上的某个可选优化——而是上一步的结果无法直接求解,必须引入下一步的工具/近似才能继续往下做。跳过任何一步,整条链就断掉。GPU 只是让"算得快",不能替代"算得出"。
为什么不能稀疏化?¶
追问:稀疏化是不是指用 NN 稀疏化波函数存储?
是的,这是其中一类。"稀疏化"在这里是广义的"用结构化参数化代替存全函数",几种主流路径:
| 方法 | 本质 | 代表 |
|---|---|---|
| 张量网络 | 假设量子态的纠缠结构稀疏(1D / 低纠缠) | MPS / DMRG, MERA, PEPS |
| 神经网络波函数 (NNQS) | 用 NN 参数化 \(\psi_\theta(\vec{r}_1, \ldots, \vec{r}_N)\) | Carleo & Troyer 2017, FermiNet (Pfau 2020), PauliNet |
| 变分 QMC | Slater + Jastrow(用一个关联因子修正) | Casino, QMCPACK |
| CI / CCSD(T) / FCI | 多 Slater 行列式的有限组合 | Gaussian, PySCF |
共同点:用"少量参数 \(\theta\)" 代替"全网格枚举"。本质都是对希尔伯特空间做某种结构假设。
ML 类比: - 存全函数 = 像 KNN,存所有 \((x, y)\) 对 - 稀疏化 = 用参数化模型 \(f_\theta(x)\) 代替查表,\(\theta\) 只需 MB-GB 量级
追问:基组不完备是什么意思?
"基组"(basis set)= 用来展开波函数的一组已知函数:\(\psi(\vec{r}) = \sum_i c_i \phi_i(\vec{r})\)
"完备"(complete)= 该基组能精确表示希尔伯特空间里的任意函数(至少极限意义下)。
| 基组 | 是否完备 |
|---|---|
| 无限个平面波(傅里叶基) | ✅ 完备 |
| 截断后的有限平面波(化简 8 实际用的) | ❌ 不完备,是完备基的有限子空间 |
| 无限个高斯基函数 | ✅ 完备(高斯函数族完备) |
| 实际有限高斯基组(GTO) | ❌ 不完备 |
| 单 Slater 行列式(HF) | ❌ 不完备(无法描述电子关联) |
| FCI(所有 Slater 组合) | ✅ 完备,但参数爆炸 |
| MPS(固定 bond dimension) | ❌ 不完备(只能描述低纠缠态) |
| NNQS(固定 NN 架构) | ❌ 不完备(受 NN 容量和优化限制) |
不完备的代价:得到的解是"在子空间里的最优",不是真正的最优。对物理体系而言,可能漏掉真实基态的关键特征(如强关联系统的多参考特性)。
DFT 的聪明之处:承认"单 Slater + \(E_{xc}\) 近似"不完备,但通过选好 \(E_{xc}\) 泛函把误差控制在 meV/atom 量级,对大多数体系够用。代价是对强关联体系(NiO、高温超导)DFT 会失效。
ML 类比: - 线性模型 = 不完备(只能表示线性关系) - 足够宽的 MLP = 理论完备(万能逼近定理) - 实际训练的 NN = 事实不完备(受优化和归纳偏置限制)
回到原文的意思¶
理论上可以——这就是张量网络(MPS, MERA)、神经网络波函数(Carleo & Troyer 2017)、QMC 等方法的思路。但它们都要付出"基组不完备"的代价,对一般体系不如 DFT 通用。DFT 通过 HK 定理和 KS 框架,把整个问题搬到了"3 维 + N 个轨道"的可控规模。
Q2:QM 的全称是什么¶
原文:"波函数为什么是概率幅?为什么是复值?"
QM = Quantum Mechanics(量子力学)。
为了一致,列一下笔记里出现的常见缩写:
| 缩写 | 全称 | 中文 |
|---|---|---|
| QM | Quantum Mechanics | 量子力学 |
| QFT | Quantum Field Theory | 量子场论 |
| QC | Quantum Chemistry | 量子化学 |
| DFT | Density Functional Theory | 密度泛函理论 |
| KS-DFT | Kohn-Sham DFT | KS 形式的 DFT |
| HF | Hartree-Fock | 哈特里-福克 |
| CI | Configuration Interaction | 组态相互作用 |
| CCSD(T) | Coupled Cluster with Singles, Doubles, perturbative Triples | 耦合簇方法 |
| FCI | Full CI | 完全组态相互作用 |
| SCF | Self-Consistent Field | 自洽场 |
| BO | Born-Oppenheimer | 玻恩-奥本海默 |
| HK | Hohenberg-Kohn | 霍亨贝格-科恩 |
| BZ | Brillouin Zone | 布里渊区 |
| LDA / GGA | Local Density / Generalized Gradient Approximation | 局域密度 / 广义梯度近似 |
Q3:相位信息的物理含义是什么¶
原文:"相位信息没丢失(干涉时恢复),只是测量时看不见"
复值波函数可以拆成 模 × 相位: $\(\psi(\vec{r}) = |\psi(\vec{r})| \cdot e^{i\phi(\vec{r})}\)$
- \(|\psi|^2\) → 概率密度(直接可观测)
- \(\phi\) → 相位(单点不可观测,但相位差可观测)
相位的关键效应¶
1. 干涉(interference)
两路波叠加: $\(\psi_{total} = \psi_1 + \psi_2\)$ $\(|\psi_{total}|^2 = |\psi_1|^2 + |\psi_2|^2 + 2|\psi_1||\psi_2|\cos(\phi_1 - \phi_2)\)$
最后那个交叉项就是相位差导致的干涉。如果只用 \(|\psi|^2\)(不带相位)的概率分布相加,永远看不到这个项——量子力学退化成经典概率。
实验上:双缝干涉、电子衍射、量子计算(量子算法本质都靠相位干涉加速)。
2. 时间演化(phase oscillation)
定态波函数随时间演化: $\(\psi(\vec{r}, t) = \psi(\vec{r}) \cdot e^{-iEt/\hbar}\)$
- 单态的相位随能量振荡
- 不同能级叠加态的相位差随时间演化 → 概率随时间振荡(如 Rabi 振荡、量子拍频)
3. 化学键(bonding)
两个原子轨道叠加: $\(\psi_{bonding} = \psi_A + \psi_B \quad (\text{同相 → 成键})\)$ $\(\psi_{anti-bonding} = \psi_A - \psi_B \quad (\text{反相 → 反键})\)$
HOMO-LUMO 分布的对称性、化学反应规则(Woodward-Hoffmann),都是相位的体现。
4. 拓扑相(Berry phase)
电子绕一个闭合路径回到原位置,可能积累一个非平凡相位(Berry phase)。这是拓扑材料的核心:拓扑绝缘体、霍尔效应、Chern 数都靠 Berry phase 定义。
ML 类比¶
- 复值神经网络(complex-valued NN):参数和激活都是复数,能更紧凑地表示某些信号(图像 FFT、雷达、语音)。它们的"相位"也起类似作用——相加时干涉
- Attention 机制:query · key 的内积包含"方向"信息(不仅大小),类似相位的相对值决定权重
- GAN / diffusion 的隐变量:单个隐变量值不可观测,但变化时(路径)可观测——类似相位差
结论¶
相位是量子力学的"隐变量"——单点测不到,但参与所有相互作用、决定一切非经典现象。如果舍弃相位,量子力学就退化为经典概率论:没有干涉、没有隧穿、没有能带、没有化学键、没有 DFT。
Q4:算符的"作用"具体怎么运算?运算规则?一维例子?¶
原文表格列出了位置 / 动量 / 动能 / 势能 / 哈密顿量算符
算符的本质¶
算符 = 函数 → 函数的映射(不是数 → 数)。
把它当成一个"机器":吃进去一个波函数 \(\psi(\vec{r})\),吐出来一个新函数。
形式上记作 \(\hat{A}: \psi \mapsto \hat{A}\psi\),或者更明确写成 \((\hat{A}\psi)(\vec{r})\)。
五种算符的具体计算规则¶
位置 \(\hat{x}\)(一维):在每个点上用 \(x\) 乘 $\((\hat{x}\psi)(x) = x \cdot \psi(x)\)$
动量 \(\hat{p}\):求导后乘 \(-i\hbar\) $\((\hat{p}\psi)(x) = -i\hbar \frac{d\psi(x)}{dx}\)$
动能 \(\hat{T}\):二阶导 $\((\hat{T}\psi)(x) = -\frac{\hbar^2}{2m} \frac{d^2\psi(x)}{dx^2}\)$
势能 \(\hat{V}\):在每个点上用 \(V(x)\) 乘 $\((\hat{V}\psi)(x) = V(x) \cdot \psi(x)\)$
哈密顿 \(\hat{H}\):动能 + 势能 $\((\hat{H}\psi)(x) = -\frac{\hbar^2}{2m}\frac{d^2\psi}{dx^2} + V(x)\psi(x)\)$
一维具体例子¶
例 1:自由粒子,平面波 \(\psi(x) = e^{ikx}\)
得到 \(\hat{p}\psi = \hbar k \cdot \psi\)。这就是本征方程:\(\psi = e^{ikx}\) 是 \(\hat{p}\) 的本征态,本征值 \(\hbar k\)(动量)。
动能本征值 \(E_T = \hbar^2 k^2 / 2m\)(经典动能 \(p^2/2m\))。
例 2:高斯波包 \(\psi(x) = (\sigma\sqrt{\pi})^{-1/2} e^{-x^2/(2\sigma^2)}\)(已归一化)
它不是 \(\hat{x}\) 的本征态(不能写成 \(a \psi\) 形式)。
算位置期望值: $\(\langle \hat{x} \rangle = \int_{-\infty}^{\infty} \psi^* x \psi \, dx = \int x \cdot |\psi|^2 dx = 0 \text{(被积函数奇)}\)$
算位置不确定度: $\(\langle \hat{x}^2 \rangle = \int x^2 |\psi|^2 dx = \frac{\sigma^2}{2}\)$ $\(\Delta x = \sqrt{\langle \hat{x}^2 \rangle - \langle \hat{x} \rangle^2} = \frac{\sigma}{\sqrt{2}}\)$
类似可以算 \(\Delta p = \hbar/(\sigma\sqrt{2})\),验证海森堡不确定性 \(\Delta x \cdot \Delta p = \hbar/2\)(高斯包是不确定性的下界)。
例 3:一维谐振子的基态 \(\psi_0(x) = (m\omega/\pi\hbar)^{1/4} e^{-m\omega x^2/(2\hbar)}\)
应用 \(\hat{H} = -\frac{\hbar^2}{2m}\partial_x^2 + \frac{1}{2}m\omega^2 x^2\):
这就是著名的"零点能"——基态都不是静止,仍有 \(\hbar\omega/2\) 动能。可以手动求二阶导验证。
ML 类比:算符 ↔ 矩阵¶
在有限维(离散化后),算符变成矩阵,波函数变成向量:
| QM 算符 | 离散化后矩阵 |
|---|---|
| \(\hat{T} = -\frac{\hbar^2}{2m}\nabla^2\) | 二阶差分矩阵(带状) |
| \(\hat{V}\) | 对角矩阵(值为 \(V(x_i)\)) |
| \(\hat{H} = \hat{T} + \hat{V}\) | 上面两个相加 |
| \(\hat{p}\) | 一阶差分矩阵(反厄米) |
之后 KS 方程 \(\hat{H}\phi = \varepsilon \phi\) 在基组下就是矩阵特征值问题 \(H \vec{c} = \varepsilon S \vec{c}\)。一维例子和大尺度 KS 计算的本质一样,只是规模不同。
Q5:本征值是什么¶
原文:"厄米性保证本征值是实数"
数学定义¶
如果存在函数 \(\psi\) 和数 \(a\),使得: $\(\hat{A} \psi = a \psi\)$
那么: - \(\psi\) 是 \(\hat{A}\) 的本征态(eigenstate / eigenfunction) - \(a\) 是对应的本征值(eigenvalue)
意思是:\(\hat{A}\) 作用在 \(\psi\) 上后,形状不变,只是按比例 \(a\) 缩放。
物理意义(最重要)¶
测量公设(QM 第三公设):
对处于状态 \(\psi\) 的系统测量物理量 \(A\),唯一可能得到的结果是 \(\hat{A}\) 的某个本征值 \(a_n\)。测量后系统坍缩到对应的本征态 \(\psi_n\)。
换句话说: - 你不可能测出 \(\hat{A}\) 的非本征值 - 测量是离散的、概率性的 - 测到 \(a_n\) 的概率 = \(|\langle \psi_n | \psi \rangle|^2\)(当前态在该本征态上的"投影")
例子¶
氢原子能级:\(\hat{H}\) 的本征值是 $\(E_n = -\frac{13.6 \text{ eV}}{n^2}, \quad n = 1, 2, 3, \ldots\)$
测氢原子的能量,结果只能是 \(-13.6\) eV、\(-3.4\) eV、\(-1.51\) eV、… 中的一个——量子化的来源。
自由粒子动量:\(\hat{p}\) 的本征值是连续的 \(\hbar k\),\(k \in \mathbb{R}\)。所以自由粒子的动量谱连续。
Si 晶体能带:\(\hat{H}\) 的本征值是 \(\varepsilon_n(\vec{k})\),对每个 \(\vec{k}\) 是离散集合,对所有 \(\vec{k}\) 形成连续能带。
厄米算符 → 实本征值¶
物理量的测量结果必须是实数(不能测出 "1+2i 焦耳")。所以表示物理量的算符必须保证本征值是实数。厄米算符的所有本征值都是实数——这是 QM 公设要求 \(\hat{A}\) 是厄米的根本原因。
ML 类比¶
- PCA:协方差矩阵 \(\Sigma\) 是对称的(厄米的实数版本),它的特征向量 = 主成分方向,特征值 = 该方向上的方差
- 谱聚类:拉普拉斯矩阵的特征向量给出聚类
- NN 训练:海森矩阵的特征值告诉你 loss 在每个方向的"陡峭程度",控制 Adam 等的步长
数学结构完全一致:对称(厄米)矩阵的特征值实数 + 特征向量正交。QM 把这个数学结构和物理"测量"挂起来了。
Q6:phi 是什么¶
原文:"\(\langle \phi | \hat{A} \psi \rangle = \langle \hat{A} \phi | \psi \rangle\)"
在 \(\langle \phi | \psi \rangle\) 这种内积(inner product)记号里,\(\phi\) 和 \(\psi\) 都只是任意波函数的占位符(类似 ML 公式里的 \(\vec{a}, \vec{b}\))。
内积的定义¶
\(\phi^*\) 是 \(\phi\) 的复共轭。这就是希尔伯特空间里两个函数的内积。
物理含义¶
\(\langle \phi | \psi \rangle\) 衡量 \(\phi\) 和 \(\psi\) 的"重叠程度": - \(|\langle \phi | \psi \rangle|^2\) = 处于状态 \(\psi\) 的系统被测到处于状态 \(\phi\) 的概率 - 如果 \(\phi = \psi\) 且归一化,\(\langle \psi | \psi \rangle = 1\) - 如果 \(\phi\) 和 \(\psi\) 正交(如不同能级),\(\langle \phi | \psi \rangle = 0\)
Dirac bra-ket 记号(绕开 \(\phi\) 是什么的混乱)¶
QM 的 Dirac 记号统一了符号: - \(|\psi\rangle\) — "ket",状态向量 - \(\langle \phi |\) — "bra",对偶向量 - \(\langle \phi | \psi \rangle\) — "bra · ket = bracket",内积 - \(\langle \phi | \hat{A} | \psi \rangle\) — 算符的"矩阵元"
线性代数类比¶
\(\langle \phi | \psi \rangle\) ↔ \(\vec{u}^* \cdot \vec{v}\)(向量内积,复数版本)
\(\langle \phi | \hat{A} | \psi \rangle\) ↔ \(\vec{u}^* A \vec{v}\)(矩阵的双侧投影)
如果你熟悉 PyTorch:torch.dot(u.conj(), v) 是内积;u.conj() @ A @ v 是矩阵元。
厄米性的意思¶
\(\langle \phi | \hat{A} \psi \rangle = \langle \hat{A} \phi | \psi \rangle\) 等价于矩阵的 \(\vec{u}^* A \vec{v} = (A\vec{u})^* \vec{v} = \vec{u}^* A^\dagger \vec{v}\),所以 \(A = A^\dagger\)(自共轭转置)——这就是矩阵厄米的定义。
Q7:为什么期望值是这种"夹的形式"¶
原文:"积分 \(\int \psi^* \hat{A} \psi\) 在离散化后就是 \(c^\dagger A c\)(三明治形式)"
为什么必须"夹"¶
期望值定义: $\(\langle \hat{A} \rangle_\psi = \int \psi^*(\vec{r}) \, \hat{A} \, \psi(\vec{r}) \, d\vec{r}\)$
两个原因:
1. 算符是"机器",结果是"函数",需要再投影回数
- \(\psi\) 是函数
- \(\hat{A}\psi\) 还是函数(算符吃函数吐函数)
- 物理量的期望值是一个数
- 要把"函数"变成"数",需要再用 \(\psi^*\) "投影" → 内积积分
整个流程:
2. 概率加权平均的物理来源
把 \(\psi\) 在 \(\hat{A}\) 的本征基下展开: $\(\psi = \sum_n c_n \psi_n, \quad \hat{A}\psi_n = a_n \psi_n\)$
那么: $\(\hat{A}\psi = \sum_n a_n c_n \psi_n\)$
夹 \(\psi^*\) 积分(用本征态的正交性 \(\langle \psi_m | \psi_n \rangle = \delta_{mn}\)): $\(\langle \hat{A} \rangle = \int \psi^* \hat{A}\psi = \sum_{m,n} c_m^* a_n c_n \delta_{mn} = \sum_n |c_n|^2 a_n\)$
这正是经典概率的期望值定义:每个可能结果 \(a_n\) 乘以它的概率 \(|c_n|^2\),然后求和。
类比线性代数(最直观)¶
离散化后 \(\psi \to \vec{c} \in \mathbb{C}^N\),\(\hat{A} \to A \in \mathbb{C}^{N \times N}\),积分 → 求和:
这种 \(\vec{c}^\dagger A \vec{c}\) 就是 ML/数值线性代数里熟悉的二次型(quadratic form),又叫 Rayleigh quotient(瑞利商,分母 \(\vec{c}^\dagger\vec{c}\) 归一化)。
ML 中的等价场景: - PCA:找 \(\vec{v}\) 最大化 \(\vec{v}^T \Sigma \vec{v}\),即数据在 \(\vec{v}\) 方向的方差最大 - QM 变分原理:找 \(\psi\) 最小化 \(\langle \psi | \hat{H} | \psi \rangle\),即基态能量 - 数学完全相同!
为什么是 \(\psi^*\) 而不是 \(\psi\)?¶
复希尔伯特空间的内积要保证: - \(\langle \psi | \psi \rangle \geq 0\)(实数非负,可解释为概率) - 用 \(\psi^* \cdot \psi = |\psi|^2\) 自然满足
如果只用 \(\psi \cdot \psi\)(不取共轭),结果是复数(如 \(\psi = e^{i\theta}\) 时 \(\psi^2 = e^{2i\theta}\)),不能解释为概率。
ML 类比:实数 PCA 用 \(\vec{v}^T \Sigma \vec{v}\);复数版本(如 FFT 的 power spectrum)必须用 \(\vec{v}^* \Sigma \vec{v}\)。同理。
对 DFT 的实用意义¶
QE 算的所有"物理量"都是这种形式: - 总能量:\(E = \langle \psi | \hat{H} | \psi \rangle\) - 力:\(\vec{F}_I = -\langle \psi | \partial \hat{H} / \partial \vec{R}_I | \psi \rangle\)(Hellmann-Feynman 定理) - 应力:\(\sigma = \langle \psi | \partial \hat{H} / \partial \epsilon | \psi \rangle\)
每个 QE 输出的数字都是某种"夹"出来的。
本轮 7 个问题速览¶
| # | 主题 |
|---|---|
| Q1 | grid^(3N) 的指数爆炸 vs ML 模型最大 ~10¹⁴ 参数(差几十个数量级) |
| Q2 | QM = Quantum Mechanics + 常用缩写表 |
| Q3 | 相位是 QM 的"隐变量",决定干涉/化学键/拓扑/时间演化 |
| Q4 | 算符 = 函数→函数;1D 平面波/高斯包/谐振子例子 + 矩阵类比 |
| Q5 | 本征值 = 测量唯一可能的结果,厄米保证实数 |
| Q6 | \(\phi\) 是任意波函数占位符,⟨φ|ψ⟩ 是希尔伯特空间内积 |
| Q7 | 期望值的"夹"是因为算符吃函数吐函数,需 ψ* 投影回数;本征展开给出概率加权平均 |