跳转至

10-qm-basics 问答笔记

源文件:10-qm-basics.md


Q1:为什么储存 ψ 需要 grid^(3N) 复数?ML 大模型的量级是多少作为对比

原文:"直接存 ψ 需要 grid^{3N} 个复数,指数爆炸"

为什么是 grid^(3N)

多电子波函数 \(\psi(\vec{r}_1, \vec{r}_2, \ldots, \vec{r}_N)\) 的输入: - 每个电子 \(i\) 的位置 \(\vec{r}_i \in \mathbb{R}^3\)(3 个实数) - N 个电子 → 输入总维度 = \(3N\) 个实数

离散化存储: - 把每个空间维度切成 \(g\) 个网格点(如 \(g = 100\)) - 网格上的取值数 = \(g \times g \times \ldots \times g\)(共 \(3N\) 次)= \(g^{3N}\) - 每个网格点上的值是 1 个复数(2 个实数)→ 总存储 \(= 2 g^{3N}\) 实数

追问:3N 个实数为什么要切网格?只存 3N 个实数不就行了

这是最关键的概念分水岭——你把波函数当成"3N 个数"了,但波函数是"3N 维空间上的函数"。这两者完全不是一个量级。

核心区别:函数 vs 函数的输入

概念 是什么
"3N 个实数" 函数的一个输入点(一组电子坐标的具体值)
波函数 \(\psi\) 整个函数本身——对所有可能的输入点都要给出一个值

要存的是后者,不是前者。

阶梯式类比

1 个 1D 函数 \(f(x)\)

输入 1 维(单个 \(x\)),但 \(f\) 本身不是 1 个数——它是个函数。要存它,需要在很多 \(x\) 上记录 \(f(x)\)

x:        x_1     x_2     x_3    ...    x_g
f(x):    f(x_1)  f(x_2)  f(x_3)  ...   f(x_g)
存储量:g 个数

2D 图像 \(I(x, y)\)

输入 2 维。一张图不能"只存 2 个数"——那只是图上某一个像素的坐标。整张图要每个像素都存:

1000 × 1000 像素图 = 10^6 个值

3D 体素 \(\rho(x, y, z)\)

输入 3 维。一块 CT 扫描数据:

512 × 512 × 512 体素 = 1.3 × 10^8 个值

N 电子波函数 \(\psi(\vec{r}_1, \vec{r}_2, \ldots, \vec{r}_N)\)

输入 \(3N\) 维。每个电子有 3 个坐标,N 个电子总共 \(3N\) 个坐标。要在所有可能的电子位置组合上给一个 \(\psi\) 值:

g 个 x_1 × g 个 y_1 × g 个 z_1 ×        ← 电子 1 的所有可能位置
g 个 x_2 × g 个 y_2 × g 个 z_2 ×        ← 电子 2 的所有可能位置
...
g 个 x_N × g 个 y_N × g 个 z_N           ← 电子 N 的所有可能位置
= g^(3N)  组合

你的描述其实自己说对了

你写的"每个实数有 g 个值的选择,而且还需要把所有 3N 个实数的组合都保存下来"——这正是问题的本质

为什么必须存所有组合?因为电子之间是耦合的\(\psi\) 在不同组合下的值互相独立

  • \(\psi(\vec{r}_1=A, \vec{r}_2=B)\) 是一个值
  • \(\psi(\vec{r}_1=A, \vec{r}_2=C)\) 是另一个值
  • \(\psi(\vec{r}_1=B, \vec{r}_2=C)\) 又是另一个值
  • ……

这些值不能从单粒子信息推出(如果能推,那就是 Slater 行列式了——化简 2 干的事)。所以必须存"所有组合"。

ML 类比

ML 概念 对应
神经网络 \(f_\theta(x)\)输入维度 \(d\) 波函数的输入维度 \(3N\)
一个具体的输入向量 \(x \in \mathbb{R}^d\) 一组具体的电子位置 \((\vec{r}_1, \ldots, \vec{r}_N)\)
模型的参数 \(\theta\)(常被压缩) 波函数本身的所有"取值"(不参数化)
在所有 \(x\) 上枚举模型输出 在所有 \((\vec{r}_1, \ldots, \vec{r}_N)\) 上枚举 \(\psi\)

关键:ML 模型用 \(\theta\) 参数化函数(用 GB 级参数代替整个函数表),而波函数没有自然的"压缩参数化"——理论上它是希尔伯特空间里的元素,没有简单的有限参数表达。

如果你强行参数化波函数(比如用 NN 表示 \(\psi_\theta\)),就是 Neural Network Quantum States(Carleo & Troyer 2017)。它能压缩存储但需要变分训练。这是 QMC + ML 的研究方向。

DFT 的"骚操作"

DFT 不去存 \(\psi\)——而是发现"基态的所有物理信息可以从 3 维密度 \(\rho(\vec{r})\) 提取"(HK 定理)。3 维 vs 3N 维就是质的飞跃。

维度 \(g=100\) 时存储
\(\psi(\vec{r}_1, ..., \vec{r}_N)\)(N=10) 30 维 \(10^{60}\)
\(\rho(\vec{r})\) 3 维 \(10^{6}\)

比例:\(10^{54}\)。这就是为什么 HK 定理是诺贝尔奖工作。

几个具体量级(取 \(g = 100\),每复数 16 字节):

N(电子数) \(g^{3N}\) 存储需求
1(H 原子) \(10^6\) 16 MB
2(He 原子) \(10^{12}\) 16 TB
5(CH₄ 价电子) \(10^{30}\) 远超人类总存储
10 \(10^{60}\) 数值上荒谬
20(一个小分子) \(10^{120}\) 比宇宙原子数(\(10^{80}\))还多 \(10^{40}\)

追问:对 H 原子,即使用电子密度降维,存储也要 16 MB?

表里的 16 MB 其实是波函数的存储量(不是密度),而对 H 原子这种单电子体系,波函数和密度的维度是一样的——DFT 的降维优势这时候显不出来。需要分三件事讲清楚:

1. 对单电子体系,波函数和密度维度相同

对 H 原子(1 电子)的输入维度
波函数 \(\psi(\vec{r})\) 3 维(电子的 \(x,y,z\)
电子密度 \(\rho(\vec{r}) = \|\psi(\vec{r})\|^2\) 3 维(同样的 \(x,y,z\)

离散化存储基本一样: - 波函数 \(g^3 = 10^6\) 复数 × 16 字节 ≈ 16 MB - 密度 \(g^3 = 10^6\) 实数 × 8 字节 ≈ 8 MB

所以"DFT 降维"对 H 原子几乎无效——因为一开始就不是多维多体问题。

2. DFT 降维在多电子体系才产生天文级效益

体系 \(\psi\) 维度 \(\psi\) 存储(\(g^3\) 网格) \(\rho\) 维度 \(\rho\) 存储 压缩比
H(1 电子) 3 \(10^6\) 3 \(10^6\) 1 倍(没省)
He(2 电子) 6 \(10^{12}\) 3 \(10^6\) \(10^6\)
CH₄(10 价电子) 30 \(10^{60}\) 3 \(10^6\) \(10^{54}\)
Si 原胞(8 价电子) 24 \(10^{48}\) 3 \(10^6\) \(10^{42}\)

结论:体系越大,DFT 越赚。对最小的 H 原子,DFT 只是"能跑",没什么优势;对 Si、CH₄ 这种真实化学/材料问题,DFT 让不可能变可能。

3. 实际 DFT 存储远小于 \(g^3\) —— 用基组展开

前面所有"\(g^3\)"假设的是实空间均匀网格离散化。真实 DFT 软件(如 QE)用平面波基组(化简 8),只存系数不存全网格:

对典型 Si 原胞(8 价电子),ecutwfc=40 Ry 下:

存的东西 大小
每个 k 点的平面波数 \(N_{PW}\) ~2000
密度的傅里叶系数数(\(N_\rho \sim 4 N_{PW}\) ~8000
KS 轨道数 \(N_{orb}\) ~16(8 价电子 × 2 能带 buffer)
每 k 点的 KS 轨道存储 \(N_{orb} \times N_{PW}\) 复数 ≈ 500 KB
所有 k 点(~30 个不可约) ~15 MB
密度(单份) ~60 KB

整个 Si vc-relax 计算内存峰值大约几百 MB,比 \(g^{3N} = 10^{48}\) 的理论极限小 \(10^{40}\)+ 倍。

4. 总结:三层压缩

DFT 为什么能在笔记本电脑上跑?因为它串联了三个关键压缩:

暴力存波函数
  ~ g^(3N) 复数 ~ 10^60 ← 天文级
         ↓ 化简 3 (HK 定理):波函数 → 密度,3N 维 → 3 维
  ~ g^3 实数 ~ 10^6 ← 可行但还是多
         ↓ 化简 7–10 (Bloch + 基组 + k 采样):网格 → 傅里叶系数
  ~ N_PW × N_orb × N_k ~ 10^6~10^8 ← 实际存储
         ↓ 工程实现(FFT、SCF、对角化优化)
  现代 DFT 单点计算:秒-分钟,内存 GB 级

第一层(HK 降维):对多电子体系才见效 第二层(基组展开):对所有体系都见效,是实际可行的关键 第三层(数值优化):让已经可行的计算变快

你原问题的本质:H 原子只享受了第二、第三层压缩,没享受第一层——因为 H 本来就是单电子问题,没"多体"可压缩。

5. 对 H 原子,其实不用 DFT 更好

H 原子的薛定谔方程有解析解\(\psi_{nlm}\) 是众所周知的)。用 DFT 算 H 反而绕远路。DFT 的价值在 N ≥ 2 的耦合体系。

benchmark 里也没 H 原子单独作为材料——只有含氢化合物(如 LaH₁₀ 超导)。这时 H 和别的原子耦合,DFT 的三层压缩才都用得上。

这就是著名的 "exponential wall"(指数墙,Walter Kohn 1998 诺贝尔奖演讲用词)。

ML 大模型的量级对比

绝对参数数量(每参数 4 字节,FP32):

模型 参数 存储(FP32)
ResNet-50 25M 100 MB
BERT-base 110M 440 MB
LLaMA 7B 7B 28 GB
LLaMA 70B 70B 280 GB
GPT-3 175B 700 GB
GPT-4(传闻 MoE) ~1.8T 总,~280B 激活 7.2 TB / 1.1 TB
现在最大模型(2026) ~10–100T 量级 100 TB 量级

对比结论

量级
ML 当前最大模型 \(\sim 10^{14}\) 参数
一个 He 原子的波函数(2 电子,grid=100) \(\sim 10^{12}\) 复数(已经接近最大模型)
一个 5 价电子分子 \(\sim 10^{30}\) 复数(比所有 ML 模型加起来多 16 个数量级
100 价电子半导体片段 \(\sim 10^{600}\) 复数(无意义)

ML 模型的"大"是线性增长(参数随宽度 / 深度多项式增长);量子多体波函数是指数爆炸。这两件事根本不在一个量级。

这正是 DFT 必须存在的理由——必须把"3N 维波函数"压缩到"3 维密度"才有任何希望。

追问:既然都降到 10⁶,那为什么还需要后续一系列的化简?GPU 算力不够吗?

核心误区:"10⁶ 个数"只是降维后的存储量,远不是完整计算量。DFT 后续化简不是为了省存储,而是为了让方程可解。让我拆开讲。

存储 vs 计算是两回事

Si 原胞典型值 性质
密度 \(\rho(\vec{r})\) 存储 ~几 MB 一次性占用
KS 轨道全部存储 ~几十 MB 一次性占用
每次 KS 方程对角化的浮点运算数 ~\(N_{PW}^3 \sim 10^{10}\) 每次 SCF 迭代都重做
SCF 总迭代数 ~10–50 次 倍乘计算量
vc-relax 外层 BFGS 步数 ~5–20 次 再倍乘
一次完整 vc-relax 总 FLOPS ~\(10^{13}\) 即使 GPU 也需要秒–分钟

存储 10⁶ 数据 × 每个数据参与 \(10^{7}\) 次操作 = 大量运算。

化简不是"可选优化",而是"算法必需"

以为 "降到 10⁶ 就够了,剩下 GPU 跑一下" 漏掉了关键事实——HK 定理只告诉你"存在 \(E[\rho]\) 最小对应基态",但没告诉你怎么找基态。光有密度的存储空间,不知道怎么算就等于没有。后续化简填的正是"怎么算"的空白:

化简步骤 不是为了省存储,是为了让……
4 KS 方程 有具体的求解算法(\(T[\rho]\) 显式写不出,必须引入虚构轨道)
5 XC 泛函 有可评估的能量表达式(\(E_{xc}\) 必须近似)
6 赝势 让 ecutwfc 从 \(10^4\) Ry 降到 \(10^1\) Ry(否则基组爆炸到 \(10^{12}\) 系数)
7 Bloch 让晶体(\(10^{23}\) 原子)变成"原胞 + k 点"的可计算规模
8 平面波基组 让连续 PDE 变成矩阵特征值问题(有限维才能数值求解)
9 k 点采样 BZ 积分才能有限化
10 对称性 k 点数压缩到不可约集合(10–100 倍加速)
11 SCF 迭代 解决 \(V_{eff} \leftrightarrow \rho\) 的循环依赖(没有 SCF 就根本无法求解)
12 BFGS 外层结构优化(没有这步只能算固定核位置的能量)

每一步都是"方程不这样变就根本解不出来"——不是"解得起但想省点事"

GPU 算力现状

  • 小 benchmark 材料(2–16 原子原胞):CPU 分钟级、GPU 秒级 → 够用
  • 催化表面 / 合金(100–500 原子):GPU 小时级 → 勉强
  • 真实复杂体系(10³–10⁴ 原子):即使 GPU 集群也需要几天
  • 量子磁性 / 强关联(DFT+U, DMFT):GPU 加速有限,还需新算法

DFT 社区一直在做 GPU 移植(QE 的 -D__CUDA、VASP 的 GPU 版、FHI-aims GPU)和 linear-scaling 方法(把 \(O(N^3)\) 降到 \(O(N)\),用局域性)。即便这样,对超大体系仍然吃力。benchmark 里的 100 材料都是小原胞正是为了让计算可跑完

结论

化简 1–12 的"每一步"都不是历史上的某个可选优化——而是上一步的结果无法直接求解,必须引入下一步的工具/近似才能继续往下做。跳过任何一步,整条链就断掉。GPU 只是让"算得快",不能替代"算得出"。

为什么不能稀疏化?

追问:稀疏化是不是指用 NN 稀疏化波函数存储?

是的,这是其中一类。"稀疏化"在这里是广义的"用结构化参数化代替存全函数",几种主流路径:

方法 本质 代表
张量网络 假设量子态的纠缠结构稀疏(1D / 低纠缠) MPS / DMRG, MERA, PEPS
神经网络波函数 (NNQS) 用 NN 参数化 \(\psi_\theta(\vec{r}_1, \ldots, \vec{r}_N)\) Carleo & Troyer 2017, FermiNet (Pfau 2020), PauliNet
变分 QMC Slater + Jastrow(用一个关联因子修正) Casino, QMCPACK
CI / CCSD(T) / FCI 多 Slater 行列式的有限组合 Gaussian, PySCF

共同点:用"少量参数 \(\theta\)" 代替"全网格枚举"。本质都是对希尔伯特空间做某种结构假设。

ML 类比: - 存全函数 = 像 KNN,存所有 \((x, y)\) 对 - 稀疏化 = 用参数化模型 \(f_\theta(x)\) 代替查表,\(\theta\) 只需 MB-GB 量级

追问:基组不完备是什么意思?

"基组"(basis set)= 用来展开波函数的一组已知函数:\(\psi(\vec{r}) = \sum_i c_i \phi_i(\vec{r})\)

"完备"(complete)= 该基组能精确表示希尔伯特空间里的任意函数(至少极限意义下)。

基组 是否完备
无限个平面波(傅里叶基) ✅ 完备
截断后的有限平面波(化简 8 实际用的) ❌ 不完备,是完备基的有限子空间
无限个高斯基函数 ✅ 完备(高斯函数族完备)
实际有限高斯基组(GTO) ❌ 不完备
单 Slater 行列式(HF) ❌ 不完备(无法描述电子关联)
FCI(所有 Slater 组合) ✅ 完备,但参数爆炸
MPS(固定 bond dimension) ❌ 不完备(只能描述低纠缠态)
NNQS(固定 NN 架构) ❌ 不完备(受 NN 容量和优化限制)

不完备的代价:得到的解是"在子空间里的最优",不是真正的最优。对物理体系而言,可能漏掉真实基态的关键特征(如强关联系统的多参考特性)。

DFT 的聪明之处:承认"单 Slater + \(E_{xc}\) 近似"不完备,但通过选好 \(E_{xc}\) 泛函把误差控制在 meV/atom 量级,对大多数体系够用。代价是对强关联体系(NiO、高温超导)DFT 会失效。

ML 类比: - 线性模型 = 不完备(只能表示线性关系) - 足够宽的 MLP = 理论完备(万能逼近定理) - 实际训练的 NN = 事实不完备(受优化和归纳偏置限制)

回到原文的意思

理论上可以——这就是张量网络(MPS, MERA)、神经网络波函数(Carleo & Troyer 2017)、QMC 等方法的思路。但它们都要付出"基组不完备"的代价,对一般体系不如 DFT 通用。DFT 通过 HK 定理和 KS 框架,把整个问题搬到了"3 维 + N 个轨道"的可控规模。


Q2:QM 的全称是什么

原文:"波函数为什么是概率幅?为什么是复值?"

QM = Quantum Mechanics(量子力学)

为了一致,列一下笔记里出现的常见缩写:

缩写 全称 中文
QM Quantum Mechanics 量子力学
QFT Quantum Field Theory 量子场论
QC Quantum Chemistry 量子化学
DFT Density Functional Theory 密度泛函理论
KS-DFT Kohn-Sham DFT KS 形式的 DFT
HF Hartree-Fock 哈特里-福克
CI Configuration Interaction 组态相互作用
CCSD(T) Coupled Cluster with Singles, Doubles, perturbative Triples 耦合簇方法
FCI Full CI 完全组态相互作用
SCF Self-Consistent Field 自洽场
BO Born-Oppenheimer 玻恩-奥本海默
HK Hohenberg-Kohn 霍亨贝格-科恩
BZ Brillouin Zone 布里渊区
LDA / GGA Local Density / Generalized Gradient Approximation 局域密度 / 广义梯度近似

Q3:相位信息的物理含义是什么

原文:"相位信息没丢失(干涉时恢复),只是测量时看不见"

复值波函数可以拆成 模 × 相位: $\(\psi(\vec{r}) = |\psi(\vec{r})| \cdot e^{i\phi(\vec{r})}\)$

  • \(|\psi|^2\) → 概率密度(直接可观测
  • \(\phi\) → 相位(单点不可观测,但相位差可观测

相位的关键效应

1. 干涉(interference)

两路波叠加: $\(\psi_{total} = \psi_1 + \psi_2\)$ $\(|\psi_{total}|^2 = |\psi_1|^2 + |\psi_2|^2 + 2|\psi_1||\psi_2|\cos(\phi_1 - \phi_2)\)$

最后那个交叉项就是相位差导致的干涉。如果只用 \(|\psi|^2\)(不带相位)的概率分布相加,永远看不到这个项——量子力学退化成经典概率。

实验上:双缝干涉、电子衍射、量子计算(量子算法本质都靠相位干涉加速)。

2. 时间演化(phase oscillation)

定态波函数随时间演化: $\(\psi(\vec{r}, t) = \psi(\vec{r}) \cdot e^{-iEt/\hbar}\)$

  • 单态的相位随能量振荡
  • 不同能级叠加态的相位差随时间演化 → 概率随时间振荡(如 Rabi 振荡、量子拍频)

3. 化学键(bonding)

两个原子轨道叠加: $\(\psi_{bonding} = \psi_A + \psi_B \quad (\text{同相 → 成键})\)$ $\(\psi_{anti-bonding} = \psi_A - \psi_B \quad (\text{反相 → 反键})\)$

HOMO-LUMO 分布的对称性、化学反应规则(Woodward-Hoffmann),都是相位的体现

4. 拓扑相(Berry phase)

电子绕一个闭合路径回到原位置,可能积累一个非平凡相位(Berry phase)。这是拓扑材料的核心:拓扑绝缘体、霍尔效应、Chern 数都靠 Berry phase 定义。

ML 类比

  • 复值神经网络(complex-valued NN):参数和激活都是复数,能更紧凑地表示某些信号(图像 FFT、雷达、语音)。它们的"相位"也起类似作用——相加时干涉
  • Attention 机制:query · key 的内积包含"方向"信息(不仅大小),类似相位的相对值决定权重
  • GAN / diffusion 的隐变量:单个隐变量值不可观测,但变化时(路径)可观测——类似相位差

结论

相位是量子力学的"隐变量"——单点测不到,但参与所有相互作用、决定一切非经典现象。如果舍弃相位,量子力学就退化为经典概率论:没有干涉、没有隧穿、没有能带、没有化学键、没有 DFT。


Q4:算符的"作用"具体怎么运算?运算规则?一维例子?

原文表格列出了位置 / 动量 / 动能 / 势能 / 哈密顿量算符

算符的本质

算符 = 函数 → 函数的映射(不是数 → 数)。

把它当成一个"机器":吃进去一个波函数 \(\psi(\vec{r})\),吐出来一个新函数。

形式上记作 \(\hat{A}: \psi \mapsto \hat{A}\psi\),或者更明确写成 \((\hat{A}\psi)(\vec{r})\)

五种算符的具体计算规则

位置 \(\hat{x}\)(一维):在每个点上用 \(x\) 乘 $\((\hat{x}\psi)(x) = x \cdot \psi(x)\)$

动量 \(\hat{p}\):求导后乘 \(-i\hbar\) $\((\hat{p}\psi)(x) = -i\hbar \frac{d\psi(x)}{dx}\)$

动能 \(\hat{T}\):二阶导 $\((\hat{T}\psi)(x) = -\frac{\hbar^2}{2m} \frac{d^2\psi(x)}{dx^2}\)$

势能 \(\hat{V}\):在每个点上用 \(V(x)\) 乘 $\((\hat{V}\psi)(x) = V(x) \cdot \psi(x)\)$

哈密顿 \(\hat{H}\):动能 + 势能 $\((\hat{H}\psi)(x) = -\frac{\hbar^2}{2m}\frac{d^2\psi}{dx^2} + V(x)\psi(x)\)$

一维具体例子

例 1:自由粒子,平面波 \(\psi(x) = e^{ikx}\)

\[\hat{p}\psi = -i\hbar \frac{d}{dx} e^{ikx} = -i\hbar \cdot (ik) \cdot e^{ikx} = \hbar k \cdot e^{ikx}\]

得到 \(\hat{p}\psi = \hbar k \cdot \psi\)这就是本征方程\(\psi = e^{ikx}\)\(\hat{p}\) 的本征态,本征值 \(\hbar k\)(动量)。

\[\hat{T}\psi = -\frac{\hbar^2}{2m} \frac{d^2}{dx^2} e^{ikx} = -\frac{\hbar^2}{2m} \cdot (-k^2) \cdot e^{ikx} = \frac{\hbar^2 k^2}{2m} \psi\]

动能本征值 \(E_T = \hbar^2 k^2 / 2m\)(经典动能 \(p^2/2m\))。

例 2:高斯波包 \(\psi(x) = (\sigma\sqrt{\pi})^{-1/2} e^{-x^2/(2\sigma^2)}\)(已归一化)

\[\hat{x}\psi = x \cdot (\sigma\sqrt{\pi})^{-1/2} e^{-x^2/(2\sigma^2)}\]

不是 \(\hat{x}\) 的本征态(不能写成 \(a \psi\) 形式)。

算位置期望值: $\(\langle \hat{x} \rangle = \int_{-\infty}^{\infty} \psi^* x \psi \, dx = \int x \cdot |\psi|^2 dx = 0 \text{(被积函数奇)}\)$

算位置不确定度: $\(\langle \hat{x}^2 \rangle = \int x^2 |\psi|^2 dx = \frac{\sigma^2}{2}\)$ $\(\Delta x = \sqrt{\langle \hat{x}^2 \rangle - \langle \hat{x} \rangle^2} = \frac{\sigma}{\sqrt{2}}\)$

类似可以算 \(\Delta p = \hbar/(\sigma\sqrt{2})\),验证海森堡不确定性 \(\Delta x \cdot \Delta p = \hbar/2\)(高斯包是不确定性的下界)。

例 3:一维谐振子的基态 \(\psi_0(x) = (m\omega/\pi\hbar)^{1/4} e^{-m\omega x^2/(2\hbar)}\)

应用 \(\hat{H} = -\frac{\hbar^2}{2m}\partial_x^2 + \frac{1}{2}m\omega^2 x^2\)

\[\hat{H}\psi_0 = E_0 \psi_0, \quad E_0 = \frac{1}{2}\hbar\omega\]

这就是著名的"零点能"——基态都不是静止,仍有 \(\hbar\omega/2\) 动能。可以手动求二阶导验证。

ML 类比:算符 ↔ 矩阵

在有限维(离散化后),算符变成矩阵,波函数变成向量:

QM 算符 离散化后矩阵
\(\hat{T} = -\frac{\hbar^2}{2m}\nabla^2\) 二阶差分矩阵(带状)
\(\hat{V}\) 对角矩阵(值为 \(V(x_i)\)
\(\hat{H} = \hat{T} + \hat{V}\) 上面两个相加
\(\hat{p}\) 一阶差分矩阵(反厄米)

之后 KS 方程 \(\hat{H}\phi = \varepsilon \phi\) 在基组下就是矩阵特征值问题 \(H \vec{c} = \varepsilon S \vec{c}\)一维例子和大尺度 KS 计算的本质一样,只是规模不同。


Q5:本征值是什么

原文:"厄米性保证本征值是实数"

数学定义

如果存在函数 \(\psi\) 和数 \(a\),使得: $\(\hat{A} \psi = a \psi\)$

那么: - \(\psi\)\(\hat{A}\)本征态(eigenstate / eigenfunction) - \(a\) 是对应的本征值(eigenvalue)

意思是:\(\hat{A}\) 作用在 \(\psi\) 上后,形状不变,只是按比例 \(a\) 缩放

物理意义(最重要)

测量公设(QM 第三公设):

对处于状态 \(\psi\) 的系统测量物理量 \(A\)唯一可能得到的结果\(\hat{A}\) 的某个本征值 \(a_n\)。测量后系统坍缩到对应的本征态 \(\psi_n\)

换句话说: - 你不可能测出 \(\hat{A}\) 的非本征值 - 测量是离散的、概率性的 - 测到 \(a_n\) 的概率 = \(|\langle \psi_n | \psi \rangle|^2\)(当前态在该本征态上的"投影")

例子

氢原子能级\(\hat{H}\) 的本征值是 $\(E_n = -\frac{13.6 \text{ eV}}{n^2}, \quad n = 1, 2, 3, \ldots\)$

测氢原子的能量,结果只能是 \(-13.6\) eV、\(-3.4\) eV、\(-1.51\) eV、… 中的一个——量子化的来源。

自由粒子动量\(\hat{p}\) 的本征值是连续的 \(\hbar k\)\(k \in \mathbb{R}\)。所以自由粒子的动量谱连续。

Si 晶体能带\(\hat{H}\) 的本征值是 \(\varepsilon_n(\vec{k})\),对每个 \(\vec{k}\) 是离散集合,对所有 \(\vec{k}\) 形成连续能带。

厄米算符 → 实本征值

物理量的测量结果必须是实数(不能测出 "1+2i 焦耳")。所以表示物理量的算符必须保证本征值是实数。厄米算符的所有本征值都是实数——这是 QM 公设要求 \(\hat{A}\) 是厄米的根本原因。

ML 类比

  • PCA:协方差矩阵 \(\Sigma\) 是对称的(厄米的实数版本),它的特征向量 = 主成分方向,特征值 = 该方向上的方差
  • 谱聚类:拉普拉斯矩阵的特征向量给出聚类
  • NN 训练:海森矩阵的特征值告诉你 loss 在每个方向的"陡峭程度",控制 Adam 等的步长

数学结构完全一致:对称(厄米)矩阵的特征值实数 + 特征向量正交。QM 把这个数学结构和物理"测量"挂起来了。


Q6:phi 是什么

原文:"\(\langle \phi | \hat{A} \psi \rangle = \langle \hat{A} \phi | \psi \rangle\)"

\(\langle \phi | \psi \rangle\) 这种内积(inner product)记号里,\(\phi\)\(\psi\) 都只是任意波函数的占位符(类似 ML 公式里的 \(\vec{a}, \vec{b}\))。

内积的定义

\[\langle \phi | \psi \rangle \equiv \int \phi^*(\vec{r}) \, \psi(\vec{r}) \, d\vec{r}\]

\(\phi^*\)\(\phi\) 的复共轭。这就是希尔伯特空间里两个函数的内积。

物理含义

\(\langle \phi | \psi \rangle\) 衡量 \(\phi\)\(\psi\) 的"重叠程度": - \(|\langle \phi | \psi \rangle|^2\) = 处于状态 \(\psi\) 的系统被测到处于状态 \(\phi\) 的概率 - 如果 \(\phi = \psi\) 且归一化,\(\langle \psi | \psi \rangle = 1\) - 如果 \(\phi\)\(\psi\) 正交(如不同能级),\(\langle \phi | \psi \rangle = 0\)

Dirac bra-ket 记号(绕开 \(\phi\) 是什么的混乱)

QM 的 Dirac 记号统一了符号: - \(|\psi\rangle\) — "ket",状态向量 - \(\langle \phi |\) — "bra",对偶向量 - \(\langle \phi | \psi \rangle\) — "bra · ket = bracket",内积 - \(\langle \phi | \hat{A} | \psi \rangle\) — 算符的"矩阵元"

线性代数类比

\(\langle \phi | \psi \rangle\)\(\vec{u}^* \cdot \vec{v}\)(向量内积,复数版本)

\(\langle \phi | \hat{A} | \psi \rangle\)\(\vec{u}^* A \vec{v}\)(矩阵的双侧投影)

如果你熟悉 PyTorch:torch.dot(u.conj(), v) 是内积;u.conj() @ A @ v 是矩阵元。

厄米性的意思

\(\langle \phi | \hat{A} \psi \rangle = \langle \hat{A} \phi | \psi \rangle\) 等价于矩阵的 \(\vec{u}^* A \vec{v} = (A\vec{u})^* \vec{v} = \vec{u}^* A^\dagger \vec{v}\),所以 \(A = A^\dagger\)(自共轭转置)——这就是矩阵厄米的定义。


Q7:为什么期望值是这种"夹的形式"

原文:"积分 \(\int \psi^* \hat{A} \psi\) 在离散化后就是 \(c^\dagger A c\)(三明治形式)"

为什么必须"夹"

期望值定义: $\(\langle \hat{A} \rangle_\psi = \int \psi^*(\vec{r}) \, \hat{A} \, \psi(\vec{r}) \, d\vec{r}\)$

两个原因

1. 算符是"机器",结果是"函数",需要再投影回数

  • \(\psi\) 是函数
  • \(\hat{A}\psi\) 还是函数(算符吃函数吐函数)
  • 物理量的期望值是一个数
  • 要把"函数"变成"数",需要再用 \(\psi^*\) "投影" → 内积积分

整个流程:

ψ  ──作用 Â──→  ·ψ   ──夹 ψ*──→  ⟨A⟩ ∈ ℝ
函数              函数               数

2. 概率加权平均的物理来源

\(\psi\)\(\hat{A}\) 的本征基下展开: $\(\psi = \sum_n c_n \psi_n, \quad \hat{A}\psi_n = a_n \psi_n\)$

那么: $\(\hat{A}\psi = \sum_n a_n c_n \psi_n\)$

\(\psi^*\) 积分(用本征态的正交性 \(\langle \psi_m | \psi_n \rangle = \delta_{mn}\)): $\(\langle \hat{A} \rangle = \int \psi^* \hat{A}\psi = \sum_{m,n} c_m^* a_n c_n \delta_{mn} = \sum_n |c_n|^2 a_n\)$

这正是经典概率的期望值定义:每个可能结果 \(a_n\) 乘以它的概率 \(|c_n|^2\),然后求和。

类比线性代数(最直观)

离散化后 \(\psi \to \vec{c} \in \mathbb{C}^N\)\(\hat{A} \to A \in \mathbb{C}^{N \times N}\),积分 → 求和:

\[\int \psi^* \hat{A} \psi \, d\vec{r} \quad \longleftrightarrow \quad \vec{c}^\dagger A \vec{c}\]

这种 \(\vec{c}^\dagger A \vec{c}\) 就是 ML/数值线性代数里熟悉的二次型(quadratic form),又叫 Rayleigh quotient(瑞利商,分母 \(\vec{c}^\dagger\vec{c}\) 归一化)。

ML 中的等价场景: - PCA:找 \(\vec{v}\) 最大化 \(\vec{v}^T \Sigma \vec{v}\),即数据在 \(\vec{v}\) 方向的方差最大 - QM 变分原理:找 \(\psi\) 最小化 \(\langle \psi | \hat{H} | \psi \rangle\),即基态能量 - 数学完全相同!

为什么是 \(\psi^*\) 而不是 \(\psi\)

复希尔伯特空间的内积要保证: - \(\langle \psi | \psi \rangle \geq 0\)(实数非负,可解释为概率) - 用 \(\psi^* \cdot \psi = |\psi|^2\) 自然满足

如果只用 \(\psi \cdot \psi\)(不取共轭),结果是复数(如 \(\psi = e^{i\theta}\)\(\psi^2 = e^{2i\theta}\)),不能解释为概率。

ML 类比:实数 PCA 用 \(\vec{v}^T \Sigma \vec{v}\);复数版本(如 FFT 的 power spectrum)必须用 \(\vec{v}^* \Sigma \vec{v}\)。同理。

对 DFT 的实用意义

QE 算的所有"物理量"都是这种形式: - 总能量:\(E = \langle \psi | \hat{H} | \psi \rangle\) - 力:\(\vec{F}_I = -\langle \psi | \partial \hat{H} / \partial \vec{R}_I | \psi \rangle\)(Hellmann-Feynman 定理) - 应力:\(\sigma = \langle \psi | \partial \hat{H} / \partial \epsilon | \psi \rangle\)

每个 QE 输出的数字都是某种"夹"出来的。


本轮 7 个问题速览

# 主题
Q1 grid^(3N) 的指数爆炸 vs ML 模型最大 ~10¹⁴ 参数(差几十个数量级)
Q2 QM = Quantum Mechanics + 常用缩写表
Q3 相位是 QM 的"隐变量",决定干涉/化学键/拓扑/时间演化
Q4 算符 = 函数→函数;1D 平面波/高斯包/谐振子例子 + 矩阵类比
Q5 本征值 = 测量唯一可能的结果,厄米保证实数
Q6 \(\phi\) 是任意波函数占位符,⟨φ|ψ⟩ 是希尔伯特空间内积
Q7 期望值的"夹"是因为算符吃函数吐函数,需 ψ* 投影回数;本征展开给出概率加权平均