“张量网络”的版本间的差异

来自集智百科 - 复杂系统|人工智能|复杂科学|复杂网络|自组织
跳到导航 跳到搜索
(创建页面,内容为“(本页面正在编辑完善之中……) * 时代背景:第二次量子革命[http://blog.sina.com.cn/s/blog_4031963b0102vjfi.html] {| class="wikitable" |- |…”)
 
第261行: 第261行:
 
* Pankaj Mehta, David J. Schwab, An exact mapping between the Variational Renormalization Group and Deep Learning [http://arxiv.org/abs/1410.3831]
 
* Pankaj Mehta, David J. Schwab, An exact mapping between the Variational Renormalization Group and Deep Learning [http://arxiv.org/abs/1410.3831]
 
* Why Deep Learning Works II: the Renormalization Group [https://charlesmartin14.wordpress.com/2015/04/01/why-deep-learning-works-ii-the-renormalization-group/]
 
* Why Deep Learning Works II: the Renormalization Group [https://charlesmartin14.wordpress.com/2015/04/01/why-deep-learning-works-ii-the-renormalization-group/]
 +
 +
[[category:旧词条搬运]]

2020年10月14日 (三) 22:15的版本

(本页面正在编辑完善之中……)

  • 时代背景:第二次量子革命[1]
第一次(17世纪,力学革命) 天上和地上运动的统一 经典力学
第二次(19世纪,电磁革命) 电、磁、光的统一 电动力学
第三次(20世纪,引力革命) 时空和引力的统一 广义相对论
第四次(20世纪,量子革命) 粒子和波的统一 量子力学
第五次(现在,第二次量子革命) 信息和物质的统一? 量子引力?

量子信息:从一到无穷

  • (量子)计算主义的世界观:
宇宙是台量子计算机,它的算法就是物理学。

一个比特的量子信息

量子比特

  • 什么是量子比特?
量子比特 = 一个只有两个本征状态的量子系统
[math]\displaystyle{ |\psi\rangle=\alpha|0\rangle+\beta|1\rangle }[/math]
  • 什么是本征状态?
类比:人脸识别,主成分分析,本征脸的线性组合。
对于量子比特来说,像硬币只有两面,只有两张“本征脸”,称为0态和1态。
  • 用2维向量表示一个量子比特的量子态:
[math]\displaystyle{ |0\rangle=\left(\begin{matrix}1\\0\end{matrix}\right), |1\rangle=\left(\begin{matrix}0\\1\end{matrix}\right), |\psi\rangle=\left(\begin{matrix}\alpha\\\beta\end{matrix}\right). }[/math]
量子比特的任何量子态都是两个本征态的线性组合,其中组合系数[math]\displaystyle{ \alpha,\beta\in\mathbb{C} }[/math]称为概率幅
  • 量子概率与经典概率:经典概率 = 量子概率的模平方。
  • 经典比特的概率分布:Bernoulli分布,p与1-p,是两个数。
  • 量子比特的概率分布:密度矩阵(量子化:数变成了矩阵)

密度矩阵

  • 密度矩阵 = 态矢量的直积
[math]\displaystyle{ \rho_\text{pure}=|\psi\rangle\langle\psi|=\left(\begin{matrix}\alpha\\\beta\end{matrix}\right)\left(\begin{matrix}\alpha^* &\beta^*\end{matrix}\right)=\left(\begin{matrix}|\alpha|^2 & \alpha\beta^* \\ \alpha^*\beta & |\beta|^2 \end{matrix}\right). }[/math]
  • 对角元:经典概率
  • 非对角元:量子相干性(quantum coherence)
  • 测量(与环境耦合),0态和1态获得了不同的本征能量,退相干到经典比特。
[math]\displaystyle{ |\psi\rangle=\alpha e^{-i E_0 t}|0\rangle+\beta e^{-i E_1 t}|1\rangle\to\rho_\text{pure}=\left(\begin{matrix}|\alpha|^2 & \alpha\beta^*e^{i(E_1-E_0)t} \\ \alpha^*\beta e^{i(E_0-E_1)t} & |\beta|^2 \end{matrix}\right). }[/math]
非对角元相位快速变化,在时间平均下,非对角元趋于0.
[math]\displaystyle{ \rho_\text{mixed}=\left(\begin{matrix}|\alpha|^2 & 0 \\ 0 & |\beta|^2 \end{matrix}\right). }[/math]
[math]\displaystyle{ S^{(1)}=-\mathrm{Tr}\rho \ln \rho }[/math]
  • 推广:n阶Renyi 熵(n趋于1极限退化为von Neumann熵)
[math]\displaystyle{ S^{(n)}=\frac{1}{1-n}\ln\mathrm{Tr}\rho^n }[/math]
  • 纯态:熵=0
  • 混态:熵大于0,完全混态:熵=1比特。
  • 熵从何处来?
熵是对无知的衡量,因此熵的产生意味着我们忘记了一些知识,丢失了一些量子信息,信息的丢失是熵的起源。纯态存储的量子信息被退相干抹去了,从而产生了熵。这个过程也被称为热化(thermalization)。如果一个量子比特完全热化,我们丢了多少量子信息?正好是一个比特!这也是“量子比特”中“比特”的含义由来。

图解张量运算

  • 如何形象地记住这些代数公式?张量网络图!
  • 矢量 - 一阶张量(一维数组) - 一条腿
  • 矩阵 - 二阶张量(二维数组) - 两条腿
  • 一般的张量(高维数组) - 多条腿
  • 标量(零为数组)- 标量无腿!
  • 每条腿代表一个张量的指标。
  • 腿的维度(bond dimension)[math]\displaystyle{ D }[/math]:该腿指标跑遍[math]\displaystyle{ 1,2,3,\cdots,D }[/math](数组的界)。
  • 腿的权重(bond weight)[math]\displaystyle{ w_{ij}=\ln D_{ij} }[/math] (我们将会看到它会被解读为神经网络中的权重)
  • 直积:直接将张量放在一起。
  • 内积(指标缩并):把腿连起来。

两个比特的量子信息

量子纠缠

  • 直积态:可因子分解的纯态(factorizable pure state)。
[math]\displaystyle{ \begin{array}{ll}|0\rangle|0\rangle&=(1,0)^\intercal\otimes(1,0)^\intercal=(1,0,0,0)^\intercal\\ |0\rangle|1\rangle&=(1,0)^\intercal\otimes(0,1)^\intercal=(0,1,0,0)^\intercal\\ |1\rangle|0\rangle&=(0,1)^\intercal\otimes(1,0)^\intercal=(0,0,1,0)^\intercal\\ |1\rangle|1\rangle&=(0,1)^\intercal\otimes(0,1)^\intercal=(0,0,0,1)^\intercal\end{array} }[/math]
一般地,[math]\displaystyle{ (\alpha_1,\beta_1)^\intercal\otimes(\alpha_2,\beta_2)^\intercal=(\alpha_1\alpha_2,\alpha_1\beta_2,\beta_1\alpha_2,\beta_1\beta_2)^\intercal }[/math] 是两量子比特的一个直积态。
  • 纠缠态:不是直积态的纯态(不可分解的纯态)
例:Einstein-Podolsky-Rosen(EPR)对
[math]\displaystyle{ \frac{1}{\sqrt{2}}\big(|0\rangle|0\rangle+|1\rangle|1\rangle\big)=\frac{1}{\sqrt{2}}(1,0,0,1)^\intercal }[/math]
一旦测得第一个量子比特的状态是0(或1),另一个量子比特的状态“立刻”坍缩为0(或1),因此我们说这两个量子比特纠缠在一起。
  • 量子力学有一种本质的非局域性,那就是量子纠缠。即使相隔遥远,也有一种幽灵般的“超距作用”(这一点曾经令Einstein感到不安)。
  • 例:[math]\displaystyle{ \frac{1}{2}\big(|0\rangle|0\rangle+|0\rangle|1\rangle+|1\rangle|0\rangle+|1\rangle|1\rangle\big) }[/math]是不是一个纠缠态?答案:……。
并不是线性组合得越厉害,纠缠就越大。
那么怎么判断一个态是不是纠缠态?怎么衡量两个量子比特之间的纠缠的强弱?

纠缠熵

  • 约化密度矩阵:密度矩阵的部分迹(partial trace),类比于经典信息论中的边缘概率分布(marginal distribution)
[math]\displaystyle{ \rho_A = \mathrm{Tr}_{\bar{A}}\rho }[/math]
需要做一个人为的划分:系统[math]\displaystyle{ A }[/math]=第一个量子比特,环境[math]\displaystyle{ \bar{A} }[/math]=第二个量子比特。问系统与环境之间的纠缠。
  • 纠缠熵:约化密度矩阵的熵
[math]\displaystyle{ S_A^{(1)}=-\mathrm{Tr}_A\rho_A\ln\rho_A }[/math]
[math]\displaystyle{ S_A^{(n)}=\frac{1}{1-n}\ln\mathrm{Tr}_A\rho_A^n }[/math]
  • 例1:直积态[math]\displaystyle{ \frac{1}{2}(|0\rangle+|1\rangle)\otimes(|0\rangle+|1\rangle)=\frac{1}{2}(1,1,1,1)^\intercal }[/math]
[math]\displaystyle{ \rho=\frac{1}{4}\left(\begin{matrix}1&1&1&1\\1&1&1&1\\1&1&1&1\\1&1&1&1\end{matrix}\right)\quad\to\quad\rho_A=\frac{1}{2}\left(\begin{matrix}1&1\\1&1\end{matrix}\right) }[/math]
[math]\displaystyle{ \rho_A }[/math]的本征值:[math]\displaystyle{ p_{A,k}=0,1 }[/math]
纠缠熵:[math]\displaystyle{ S_A^{(n)}=0 }[/math]
  • 例2:纠缠态,EPR对[math]\displaystyle{ \frac{1}{\sqrt{2}}(|0\rangle|0\rangle+|1\rangle|1\rangle)=\frac{1}{\sqrt{2}}(1,0,0,1)^\intercal }[/math]
[math]\displaystyle{ \rho=\frac{1}{2}\left(\begin{matrix}1&0&0&1\\0&0&0&0\\0&0&0&0\\1&0&0&1\end{matrix}\right)\quad\to\quad\rho_A=\frac{1}{2}\left(\begin{matrix}1&0\\0&1\end{matrix}\right) }[/math]
[math]\displaystyle{ \rho_A }[/math]的本征值:[math]\displaystyle{ p_{A,k}=1/2,1/2 }[/math]
纠缠熵:[math]\displaystyle{ S_A^{(n)}=\ln 2 }[/math] = 1比特。
  • 纠缠熵是对纠缠的度量。为什么量子纠缠会导致熵的产生?直积态:量子信息独立地储存在每个量子比特内部。纠缠态:量子信息被分布在量子比特之间,只看一个量子比特,量子信息丢失了,信息的丢失 = 熵的产生。
  • 量子互信息:测量A能告诉多少关于B的信息?
[math]\displaystyle{ I^{(n)}_{AB}=S^{(n)}_{A}+S^{(n)}_{B}-S^{(n)}_{A\cup B} }[/math]
  • EPR对:超越经典互信息的2比特!(不但知道了ZZ关联还知道了XX关联)
  • 量子信息是分享的。信息既不再这里,也不在那里,那在哪里?范式的转变:从面向对象的物理学到面向关系的物理学。神经网络:信息不在任何神经元上,而是在神经元与神经元的连结关系之中。
信息寓于关系,网络是描述关系的语言。

张量网络

  • 量子态的张量表示
[math]\displaystyle{ |\Psi\rangle=\sum_{s_1=0,1}\sum_{s_2=0,1}\Psi_{s_1,s_2}|s_1\rangle|s_2\rangle }[/math]
  • 直积态和纠缠态的张量网络表示。
  • 直积态:[math]\displaystyle{ \Psi_{s_1,s_2}=A_{s_1}B_{s_2}, A=B=\frac{1}{\sqrt{2}}\left(\begin{matrix}1\\1\end{matrix}\right) }[/math]
腿维度[math]\displaystyle{ D_{AB}=1 }[/math], 腿权重[math]\displaystyle{ w_{AB}=\ln D_{AB}=0 }[/math] 相当于没有连边,因此也没有纠缠。
  • EPR态:[math]\displaystyle{ \Psi_{s_1,s_2}=\sum_{t=0,1}A_{s_1,t}B_{t,s_2}, A=B=\frac{1}{2^{1/4}}\left(\begin{matrix}1&0\\0&1\end{matrix}\right) }[/math]
腿维度[math]\displaystyle{ D_{AB}=2 }[/math](张量指标[math]\displaystyle{ t=0,1 }[/math]), 腿权重[math]\displaystyle{ w_{AB}=\ln D_{AB}=\ln 2 }[/math] 有一个比特的连边,表达了一个比特的量子纠缠。
EPR态是两个量子比特的最大纠缠态(所有的量子信息都被分配到量子比特之间)。但一般来说,纠缠熵是介于0和1比特之间,连边权重也应该理解为一种有效维度(有效秩)的对数。
  • 量子纠缠 = 张量网络的连边。连边权重越大,量子纠缠越强。

多个比特的量子信息

张量网络态

  • 张量网络态
[math]\displaystyle{ |\Psi\rangle=\sum_{[s]}\Psi_{[s]}|[s]\rangle }[/math]
N个量子比特,N条腿([math]\displaystyle{ [s_1,s_2,\cdots,s_N] }[/math]),每条腿的维度2,因此[math]\displaystyle{ \Psi_{[s]} }[/math]共有[math]\displaystyle{ 2^N }[/math]元素。
  • 量子信息大数据!如何压缩?
把量子信息储存在张量网络的结构之中。这与把学习获得的记忆存储在神经网络中有异曲同工之处。
神经网络编码经典信息,张量网络编码量子信息。

面积律vs体积律

  • 纠缠熵在张量网络中的几何意义:网络的最少切割
  • 面积律:纠缠熵正比于子系统面积
  • 体积律:纠缠熵正比于子系统体积
  • Matrix Product State (MPS):面积律
2016年诺贝尔物理学奖,David J. Thouless, F. Duncan M. Haldane, J. Michael Kosterlitz。其中Haldane教授的一个获奖工作是发现了一维的拓扑态:Haldane chain。这个拓扑态可以用一种张量网络来表达:
[math]\displaystyle{ |\Psi\rangle=\sum_{[s=x,y,z]}\mathrm{Tr}(\cdots\sigma^{s_1}\sigma^{s_2}\sigma^{s_3}\cdots)|[s]\rangle }[/math]
[math]\displaystyle{ \sigma^{x,y,z} }[/math]Pauli 矩阵,故称矩阵乘积态
特点:不管子系统A有多大,纠缠熵都是2比特,正比于A的面积(两个点)
  • 一般的多体量子系统,基态:量子有序,激发态:量子混沌
  • Eigenstate Thermalization Hypothesis (ETH):体积律
ETH:纠缠熵 = 热力学熵
例:随机图(k ~ const, c → 0)可以给出一个体积律
  • 热力学的量子起源
混沌=局域性的丧失,量子混沌=非局域的张量网络(长程连边,随机图)。纠缠在整个量子系统中扩散,量子信息以高度非局域的方式散布(scrambling),一切局域测量都无法提取,量子信息就像丢失了一样,这是熵的起源。虽然量子系统的时间演化是线性的、可逆的,而且量子信息事实上没有消失,但是在有限的复杂度(complexity)标度下,无法获取的信息只能忘记,遗忘是不可逆的,时间的方向性被演生出来。

张量网络:空间几何的量子织锦

  • 纠缠 - 网络 - 几何
空间源于量子纠缠

全息对偶

量子纠缠与虫洞

  • 量子力学的非局域性:量子纠缠(EPR对)
  • 广义相对论的非局域性:虫洞(ER桥)
  • 量子纠缠和虫洞都很脆弱(EPR会退相干,而虫洞会坍缩关闭)
  • Susskind和Maldacena(2013): ER=EPR [2]
  • 狭义的理解:纠缠的黑洞有虫洞相连,有虫洞相连的黑洞是纠缠的。
  • 广义的理解:每对纠缠的量子比特之间都有一个量子虫洞(普朗克虫洞)。
  • 量子纠缠幽灵般的超距作用,是否违反相对论?否,因为有小虫洞相连,因此是一个点。可见量子比特之间的距离应该根据量子纠缠来定义:纠缠越强,距离越近
  • 在张量网络上,两个张量之间的连边权重越大,纠缠越强,距离越近。因此张量网络的几何,正好就是全息空间几何,因为它们对距离的定义是一致的。

纠缠熵的几何意义

  • AdS/CFT对偶 Ryu-Takayanagi 公式:
boundary: 量子态的纠缠熵 = bulk: 全息空间中的测地线长度
[math]\displaystyle{ S_{A}=\frac{1}{4G_N}|\gamma_A| }[/math]
A:边界上的子系统,[math]\displaystyle{ \gamma_A }[/math]:全息空间中连接A的边界的测地线。
  • 全息空间就是张量网络的几何化空间!
量子态的纠缠熵 = 张量网络上的最短分割 = 全息空间的测地线
  • 信息 - 网络 - 几何:量子信息 - 张量网络 - 全息空间

量子临界和双曲空间

  • 量子临界现象:量子多体波函数中的无标度行为。
  • 纠缠熵:对数律
[math]\displaystyle{ S_{A}\sim \ln |A| }[/math]
  • 关联函数,量子互信息:幂律
[math]\displaystyle{ I_{AB}\sim |x_A-x_B|^{-\alpha} }[/math]
  • MERA网络:双曲空间中的张量网络。
  • MERA本身是重整化算法,输入:多体量子系统的Hamiltonian,输出:基态的张量网络表示,通过对Hamiltonian做重整化将基态中的量子信息编码到张量网络中。
  • 为什么是双曲空间?动力学决定几何:重整化的动力学(+临界系统)导致双曲几何。
  • 网络几何化有什么好处?非局域性质的局域化
  • 纠缠熵:面积律(全息空间)
[math]\displaystyle{ S_{A}\sim |\gamma_A| }[/math]
  • 关联函数,量子互信息:指数律(全息空间)
[math]\displaystyle{ I_{AB}\sim e^{-\alpha d_{AB}/l} }[/math]

空间膨胀与坍缩

  • 超越量子临界:局域化与热化。
  • 量子局域化 - 空间膨胀 - 暗能量
局域化阻碍了长程量子纠缠的建立,直积态,量子比特彼此远离
  • 量子热化(量子混沌)- 空间坍缩 - 黑洞
量子混沌:长程量子纠缠泛滥,类似随机态(Page state),量子比特彼此靠近

纠缠特征学习:机器学习与演生时空

从测地线几何到统计力学模型

测地线

  • 测地线是什么?测地线就是弯曲空间中的“直线”,连接两点路径最短的线。
  • 我们如何得到一条直线?把线“拉”直。
  • “拉”是一个什么动作?拉就是要增加线的张力。张力就是单位长度上的弹性势能。
  • 因此引入张力把长度的最优化问题变成了能量的最优化问题,而能量的优化问题则交给统计模型去完成。
  • 什么时候测地线它拉不“直”?如果附近有引力源弯曲了空间!

统计力学模型

  • Modularity算法:给定一个有边界的网络,先在网络上定义铁磁性([math]\displaystyle{ w_{ij}\gt 0 }[/math])的Ising 模型,并在边界上施加边界条件[math]\displaystyle{ \sigma_{\partial} }[/math],经过测地线的起点和终点Ising自旋反号,
[math]\displaystyle{ E[\sigma]=-\sum_{ij}w_{ij}\sigma_i \sigma_j,\quad (\sigma_i=\pm1) }[/math]
低温极限(最大似然):畴界自动就是一条测地线!能量正比于畴界长度,也就是测地线长度。贝叶斯统计:自由能正比于测地线长度
[math]\displaystyle{ e^{-F[\sigma_\partial]}=\sum_{[\sigma/\sigma_\partial]} e^{-E[\sigma]} }[/math]

随机张量网络

  • 随机张量:每个元素是独立随机变量。比如Gaussian Unitary Ensemble (GUE)
[math]\displaystyle{ P(T)=\frac{1}{Z}e^{-||T||^2} }[/math]
只需要指定每条腿的维度[math]\displaystyle{ D }[/math],或等价地,腿权重[math]\displaystyle{ w=\ln D }[/math]
  • 随机张量网络:给定有权重的完全图[math]\displaystyle{ G=(V,E) }[/math],由权重矩阵[math]\displaystyle{ w_{ij} (i,j\in V) }[/math]描述
  • 每个顶点[math]\displaystyle{ i\in V }[/math]上定义一个随机张量[math]\displaystyle{ T_i }[/math]
  • 每条边[math]\displaystyle{ \langle i j\rangle\in E }[/math]上腿权重为[math]\displaystyle{ w_{ij} }[/math]
  • 按照连边对张量缩并(tensor trace, tTr)。每个图G都对应一类多体量子态,这些态的纠缠结构相同。
[math]\displaystyle{ |\Psi_\text{RTN}\rangle=\sum_{[s]}\Psi[s]|[s]\rangle; \Psi=\mathrm{tTr}\;(T_1\otimes T_2\otimes \cdots) }[/math]
  • 面向关系:张量的内容不重要,张量怎么缩并的很重要。忘记对象,只留连接。
  • 随机张量网络的Renyi纠缠熵。
  • 首先,需要在张量网络边界上指定一个子系统[math]\displaystyle{ A\subseteq \partial V }[/math]。用边界上的Ising构型来编码[math]\displaystyle{ \sigma_{i\in A}=-1 }[/math], [math]\displaystyle{ \sigma_{i\in \bar{A}}=+1 }[/math][math]\displaystyle{ A\cup \bar{A}=\partial V }[/math]只限定边界,不对体内做限定)
  • 计算[math]\displaystyle{ |\Psi_\text{RTN}\rangle }[/math]在子系统A上的Renyi纠缠熵
[math]\displaystyle{ P_\text{RTN}(A)\propto e^{-S^{(2)}_\text{RTN}(A)}= \frac{1}{Z}\sum_{[\sigma/\sigma_\partial]}e^{-E[\sigma]} }[/math]
  • 从量子回到经典:随机张量网络的纠缠熵问题变成复杂网络上的Ising模型。

量子纠缠的机器学习

  • 纠缠特征学习,无监督学习量子态中的纠缠结构
  • 样本集:子系统A的划分,等价于边界(visible层)的Ising构型。
  • 数据:量子态 [math]\displaystyle{ |\Psi\rangle }[/math][math]\displaystyle{ P_\Psi(A)=e^{-S^{(2)}_\psi(A)} }[/math]
  • 模型:随机张量网络,[math]\displaystyle{ P_\text{RTN}(A)= \frac{1}{Z}\sum_{[\sigma/\sigma_\partial]}e^{-E[\sigma]} }[/math]
模型参数:随机张量网络的腿权重[math]\displaystyle{ w_{ij} }[/math],它也是Boltzmann机神经网络的权重。
  • 目标:最小化[math]\displaystyle{ P_\text{RTN} }[/math](模型)和[math]\displaystyle{ P_\psi }[/math](数据)的KL divergence
  • 训练后,随机张量网络的几何就是演生的全息空间的几何,所以全息对偶可以看成一个逆Ising问题。
  • 时空的起源:我们的时空是在宇宙量子态的“大数据”冲刷下,通过“学习”演生出来的。
  • 物理上的限制:必须是Boltzmann机,权重正定(无阻错,有效的编码空间很小),而且不要去限定分层和连接结构(难训练,而且有规范冗余)

阅读材料

关于这个议题的物理学背景,推荐《量子杂志》上的科普文章《时空的量子结构》。这篇文章一共有包含三节,其中以第二节内容最为相关:

(一)纠缠的虫洞
(二)*网络的织锦
(三)量子几何
《赛先生》微信号上刊出了第二节的中文译文将宇宙维系在一起的可能是量子幽灵作用

在学术文献方面,我们将重点阅读以下两篇文章。

第一篇是G. Evenbly, G. Vidal的综述性文章《张量网络量子态和几何》。Vidal教授是这个领域的开创者之一。如果觉得看文章很累,也可以观看Vidal教授2015年在KITP讲解这篇文章的演讲录像

第二篇是今年的一篇新文章《从随机张量网络到全息对偶》,引入了随机张量网络,讨论了与全息几何的关系。

补充材料

深度网络与重整化群

  • Pankaj Mehta, David J. Schwab, An exact mapping between the Variational Renormalization Group and Deep Learning [3]
  • Why Deep Learning Works II: the Renormalization Group [4]