因果几何
不同于离散状态空间或网络,现实中很多动力学演化过程,如鸟群、股票价格、布朗运动、微生物存活率,状态空间都是连续的。
因果几何,意在分析如何测量连续空间中的因果涌现,主要是将用于度量因果的有效信息(EI)从离散状态空间拓展到状态空间连续的随机映射,在随机噪声的因果函数模型,分析EI的计算方法和因果涌现的产生条件。EI计算方法还可以从一维拓展到高维,用矩阵论的方法,得到高维模型下EI的计算。
在推进过程中为了消除人工设置的参数对EI计算的主管影响,会黎曼流形的概念,分析信息几何和因果几何的相关性质,使EI计算以及因果涌现的判断更为有效合理。
连续空间随机映射
随机映射与观测噪声
形如[math]\displaystyle{ y=f(x)+\varepsilon, \varepsilon\sim\mathcal{N}(0,\epsilon^2) }[/math]的随机映射,可以分为两部分,确定映射和随机噪声。 其表达了从[math]\displaystyle{ x }[/math]所处空间[math]\displaystyle{ \mathcal{X} }[/math]到从[math]\displaystyle{ y }[/math]所处空间[math]\displaystyle{ \mathcal{Y} }[/math]的随机映射。随机映射可以用转移概率[math]\displaystyle{ p(y|x)=\mathcal{N}(f(x),\epsilon^2) }[/math]的形式表达。
确定部分为一个[math]\displaystyle{ y }[/math]关于[math]\displaystyle{ y }[/math]因果模型可以用[math]\displaystyle{ y=f(x) }[/math]进行表达,其本质上属于一个从[math]\displaystyle{ x }[/math]所处空间[math]\displaystyle{ \mathcal{X} }[/math]到从[math]\displaystyle{ y }[/math]所处空间[math]\displaystyle{ \mathcal{Y} }[/math]的确定映射。它反映了整个系统内在的实际因果机制。
随机噪声[math]\displaystyle{ \varepsilon\sim\mathcal{N}(0,\epsilon^2) }[/math]是由于观测工具的缺陷或估读偏差所产生的误差,这种误差产生的噪声被称为观测噪声,观察噪声导致了系统的不确定性,使[math]\displaystyle{ y }[/math]变为与[math]\displaystyle{ f(x) }[/math]相关,但具有随机性的变量。
人工干预与干预噪声
为了更好的判断两个变量的因果关系,而不受到其他变量影响,我们需要引入能够影自变量[math]\displaystyle{ x }[/math]分布的干预措施[math]\displaystyle{ do(x) }[/math]。最常用且最有效的方法,是让[math]\displaystyle{ x }[/math]服从均匀分布,即[math]\displaystyle{ do(x)\sim U[-L/2,L/2] }[/math],[math]\displaystyle{ L }[/math]是干预后均匀分布的超参数。
干预噪声被添加到输入(干预)变量[math]\displaystyle{ x }[/math]。干预噪声表示为[math]\displaystyle{ \xi\sim\mathcal{N}(0,\delta^2) }[/math],其中[math]\displaystyle{ \delta }[/math]是[math]\displaystyle{ \xi }[/math]的标准差。
有效信息EI
数据隐私(data privacy)是2018年公布的计算机科学技术名词。可以定义为:
(1)数据中直接或间接蕴含的,涉及个人或组织的,不宜公开的,需要在数据收集、数据存储、数据查询和分析、数据发布等过程中加以保护的信息。
(2)保护数据隐私的能力,通常采用数据匿名化、数据扰动、数据加密、差分隐私等技术。
协同信息披露就属于要在保障数据隐私的同时,完成数据披露的一个重要手段。
基本条件
原始数据集用[math]\displaystyle{ X=(X_1,…,X_n ) }[/math]表示,其中[math]\displaystyle{ X_1,…,X_n }[/math]表示[math]\displaystyle{ n }[/math]组个体数据,统计信息和潜在特征用集合[math]\displaystyle{ W }[/math]表示,中间量用[math]\displaystyle{ Y }[/math]表示。
马尔科夫性
协同披露中,数据集,潜在特性,中间量之间存存在马尔可夫动力学的性质。
所谓的马尔可夫动力学是指系统的下一时刻状态只依赖于上一时刻的状态,并且与再之前的状态无关。马尔可夫动力学可以区分为离散时间、连续时间,离散状态、连续状态,以及它们的组合等多种。
由于[math]\displaystyle{ W }[/math]可以通过[math]\displaystyle{ X }[/math]直接数据披露产生,故可以定义,[math]\displaystyle{ W }[/math]对于[math]\displaystyle{ X }[/math]有马尔可夫依赖。由于[math]\displaystyle{ Y }[/math]是从数据集[math]\displaystyle{ X }[/math]中变化产生,故[math]\displaystyle{ Y }[/math]对[math]\displaystyle{ X }[/math]也存在马尔可夫依赖。因此可以用,[math]\displaystyle{ p_{W|X} }[/math]和[math]\displaystyle{ p_{Y|X} }[/math]两个条件表示[math]\displaystyle{ W }[/math]对[math]\displaystyle{ X }[/math],[math]\displaystyle{ Y }[/math]对[math]\displaystyle{ X }[/math]的映射关系。这样[math]\displaystyle{ W-X-Y }[/math]就可以构成一条马尔科夫链。[1][2]
中间量与数据集个体数据的独立性
- ↑ Rassouli, B. , Rosas, F. E. , & Gunduz, D. . (2019). Data disclosure under perfect sample privacy. IEEE Transactions on Information Forensics and Security, PP(99), 1-1.
- ↑ Rosas FE, Mediano PAM, Jensen HJ, Seth AK, Barrett AB, Carhart-Harris RL, et al. (2020) Reconciling emergences: An information-theoretic approach to identify causal emergence in multivariate data. PLoS Comput Biol 16(12): e1008289.