协同信息披露
协同信息披露(协同披露)是一种保证完美样本隐私的数据披露技术,因为它揭示了整个数据集的特征,但不涉及其任何组成元素。协同信息披露的目标和普通信息披露相同,都是要推断数据集的统计信息和潜在特征,不同的是它既能提供隐私又能提供实用性,同时又不会违反与数据隐私相关的条件和要求。
整个过程为了避免数据集的信息在统计信息和潜在特征时泄露,生成了一个与数据集整体相关,但与个体数据信息完全独立的中间量,通过中间量同样可推理出数据分析想要的结果,但不会暴露个体信息的隐私。该过程中,将中间量与结果统计信息的最优互信息定义为协同披露信息量,作为协同披露的度量方法。
历史
数据披露(Data Disclosure)
数据披露主要是指数据持有者、收集者以某种形式,把数据反映的相关的信息,向社会公众公开披露的行为。数据披露是让数据背后的信息与使用者连接的桥梁。
例如:投资者和社会公众对上市公司数据信息的获取,主要是通过大众媒体阅读各类临时公告和定期报告。投资者和社会公众在获取这些数据信息后,可以作为投资抉择的主要依据。公告和报告就可以认为是数据批量的一种途径。
真实、全面、及时、充分地进行数据披露至关重要,只有这样,才能使数据真正发挥价值,让背后的潜在信息对个人甚至社会,产生有效地帮助。
数据隐私(Data Privacy)
数据隐私(data privacy)是2018年公布的计算机科学技术名词。可以定义为:
(1)数据中直接或间接蕴含的,涉及个人或组织的,不宜公开的,需要在数据收集、数据存储、数据查询和分析、数据发布等过程中加以保护的信息。
(2)保护数据隐私的能力,通常采用数据匿名化、数据扰动、数据加密、差分隐私等技术。
协同信息披露就属于要在保障数据隐私的同时,完成数据披露的一个重要手段。
基本条件
原始数据集用[math]\displaystyle{ X=(X_1,…,X_n ) }[/math]表示,其中[math]\displaystyle{ X_1,…,X_n }[/math]表示[math]\displaystyle{ n }[/math]组个体数据,统计信息和潜在特征用集合[math]\displaystyle{ W }[/math]表示,中间量用[math]\displaystyle{ Y }[/math]表示。
马尔科夫性
协同披露中,数据集,潜在特性,中间量之间存存在马尔可夫动力学的性质。
所谓的马尔可夫动力学是指系统的下一时刻状态只依赖于上一时刻的状态,并且与再之前的状态无关。马尔可夫动力学可以区分为离散时间、连续时间,离散状态、连续状态,以及它们的组合等多种。
由于[math]\displaystyle{ W }[/math]可以通过[math]\displaystyle{ X }[/math]直接数据披露产生,故可以定义,[math]\displaystyle{ W }[/math]对于[math]\displaystyle{ X }[/math]有马尔可夫依赖。由于[math]\displaystyle{ Y }[/math]是从数据集[math]\displaystyle{ X }[/math]中变化产生,故[math]\displaystyle{ Y }[/math]对[math]\displaystyle{ X }[/math]也存在马尔可夫依赖。因此可以用,[math]\displaystyle{ p_{W|X} }[/math]和[math]\displaystyle{ p_{Y|X} }[/math]两个条件表示[math]\displaystyle{ W }[/math]对[math]\displaystyle{ X }[/math],[math]\displaystyle{ Y }[/math]对[math]\displaystyle{ X }[/math]的映射关系。这样[math]\displaystyle{ W-X-Y }[/math]就可以构成一条马尔科夫链。
中间量与数据集个体数据的独立性
[math]\displaystyle{ p_{Y|X} }[/math]是中间量[math]\displaystyle{ Y }[/math]关于数据集的映射,表示由于[math]\displaystyle{ Y }[/math]是从数据集[math]\displaystyle{ X }[/math]中变化产生。由于中间量可推理出数据分析想要的结果,但不会暴露个体信息的隐私,故我们需要定义[math]\displaystyle{ Y\perp X_{i}, \forall i=1,...,n }[/math],这里[math]\displaystyle{ \perp }[/math]表示相互独立,在信息论中可以用互信息为0表示,即[math]\displaystyle{ I(Y,X_i)=0 }[/math]。
所有可产生[math]\displaystyle{ Y }[/math]满足[math]\displaystyle{ Y\perp X_{i}, \forall i=1,...,n }[/math]的映射[math]\displaystyle{ p_{Y|X} }[/math],可以写成一个集合[math]\displaystyle{ \mathcal{A}=\{p_{Y|X}|Y\perp X_{i}, \forall i=1,...,n\} }[/math]。
中间量与所需指标的非独立性
[math]\displaystyle{ W }[/math]与[math]\displaystyle{ X }[/math]直接可以产生协同披露,还需要满足[math]\displaystyle{ I(W,X)\ne 0 }[/math],即中间量要和所需要的指标与潜藏信息存在关联,若[math]\displaystyle{ W\perp Y }[/math],则通过[math]\displaystyle{ Y }[/math]无法判别出任何[math]\displaystyle{ W }[/math]的信息。若无法产生任何满足条件的中间量 ,那么协同披露也无法完成。
协同信息披露的度量方法
术语“协同”来自这样一个事实,即协同披露映射揭示了整个数据集的集体属性,这些属性不会损害其“部分”(即样本本身)。为了度量协同披露的效果,引入协同披露信息量的概念,协同披露信息量定义为: [math]\displaystyle{ I_s(W,X)=\sup\limits_{1\lt x\lt 2}\limits{W-X-Y}I(W,X) }[/math]