更改

链路分析 (查看源代码)

2021年7月31日 (六) 13:15的版本

删除550字节、 2021年7月31日 (六) 13:15

无编辑摘要

第5行：第5行： −

在~~'''~~网络理论 ~~Network Theory'''~~中，'''~~~~ 链路分析 Link Analysis~~'''是一种用于评估节点之间关系（连接）的'''数据分析 Data Analysis~~'''技术。该技术可以鉴别各种类型节点（对象）之间的关系，包括组织、人和金融交易。链路分析已被应用于诸多领域，如打击犯罪活动（如欺诈侦查、反恐和情报）、计算机安全分析、搜索引擎优化、市场调查、医学研究和艺术。

+

在[[网络理论]]中，'''链路分析 Link Analysis'''是一种用于评估节点之间关系（连接）的数据分析技术。该技术可以鉴别各种类型节点（对象）之间的关系，包括组织、人和金融交易。链路分析已被应用于诸多领域，如打击犯罪活动（如欺诈侦查、反恐和情报）、计算机安全分析、搜索引擎优化、市场调查、医学研究和艺术。

==知识发现==

−

'''~~~~ 知识发现 Knowledge Discovery~~~~'''，是指不断地识别、分析和可视化数据中的内在模式，这是一个持续迭代和交互的过程。<ref>{{cite web|url=https://www.torproject.org/about/overview.html.en|title=Tor Project: Overview|first=The Tor Project|last=Inc.|publisher=}}</ref>网络分析、链路分析和'''社会网络分析 Social Network Analysis'''都是知识发现的方法，它们都是属于''' 先验方法 Prior Method'''。大多数知识发现方法遵循以下几个步骤（'''在最高级别'''）:<ref>Ahonen, H., [http://www.cs.helsinki.fi/u/hahonen/features.txt Features of Knowledge Discovery Systems].</ref>

+

'''知识发现 Knowledge Discovery'''，是指不断地识别、分析和可视化数据中的内在模式，这是一个持续迭代和交互的过程。<ref>{{cite web|url=https://www.torproject.org/about/overview.html.en|title=Tor Project: Overview|first=The Tor Project|last=Inc.|publisher=}}</ref>网络分析、链路分析和社会网络分析都是知识发现的方法，它们都是属于先验方法。大多数知识发现方法遵循以下几个步骤（'''在最高级别'''）:<ref>Ahonen, H., [http://www.cs.helsinki.fi/u/hahonen/features.txt Features of Knowledge Discovery Systems].</ref>

#数据处理

#数据转换

第15行：第15行：

#数据可视化

−

数据的收集和处理需要访问数据，但此过程存在一些固有的问题，包括'''信息超载 Information Overload'''和数据错误等。在数据被收集后，它将转换成一种人和计算机分析程序都能有效使用的格式。之后基于数据，可使用计算机生成的或人工操作的可视化工具进行作图（如网络图）。目前有几种算法可以帮助人类进行数据分析-~~'''迪杰斯特算法~~ Dijkstra’s ~~algorithm'''，'''广度优先搜索~~ Breadth-First ~~Search'''和''' 深度优先搜索~~ Depth-First ~~Search'''。~~

+

数据的收集和处理需要访问数据，但此过程存在一些固有的问题，包括信息超载和数据错误等。在数据被收集后，它将转换成一种人和计算机分析程序都能有效使用的格式。之后基于数据，可使用计算机生成的或人工操作的可视化工具进行作图（如网络图）。目前有几种算法可以帮助人类进行数据分析-迪杰斯特拉算法 Dijkstra’s algorithm，广度优先搜索 Breadth-First Search和深度优先搜索 Depth-First Search。

−

~~链路分析主要通过可视化方法（网络图、关联矩阵）分析节点之间的关系。这里有一个基于犯罪侦查绘制网图的例子~~:<ref name=Krebs>Krebs, V. E. 2001, [http://vlado.fmf.uni-lj.si/pub/networks/doc/Seminar/Krebs.pdf Mapping networks of terrorist cells], Connections 24, 43–52.</ref>

+

链路分析主要通过可视化方法（网络图、[[关联矩阵]]）分析节点之间的关系。这里有一个基于犯罪侦查绘制网图的例子:<ref name=Krebs>Krebs, V. E. 2001, [http://vlado.fmf.uni-lj.si/pub/networks/doc/Seminar/Krebs.pdf Mapping networks of terrorist cells], Connections 24, 43–52.</ref>

第42行：第42行：

[[File:330px-Association_Matrix.png|right|thumb|图1：关联矩阵]]

−

Klerks把链路分析工具分为三代。<ref>{{cite journal | last = Klerks | first = P. | year = 2001 | title = The network paradigm applied to criminal organizations: Theoretical nitpicking or a relevant doctrine for investigators? Recent developments in the Netherlands | citeseerx = 10.1.1.129.4720 | journal = Connections | volume = 24 | pages = 53–65 }}</ref>第一代是由哈珀 Harper和哈里斯 ~~Harris在1975年引入的'''阿纳卡帕图~~ Anacpapa ~~Chart'''。~~<ref>Harper and Harris, The Analysis of Criminal Intelligence, Human Factors and Ergonomics Society Annual Meeting Proceedings, 19(2), 1975, pp. 232-238.</ref>这种方法需要一个领域专家来查看数据文件，通过构造一个关联矩阵来识别关联，然后创建一个用于可视化的链路图，最后通过分析网络图来识别兴趣模式。这种方法需要广泛的领域知识，且因要审查大量数据，所以非常耗时。

+

Klerks把链路分析工具分为三代。<ref>{{cite journal | last = Klerks | first = P. | year = 2001 | title = The network paradigm applied to criminal organizations: Theoretical nitpicking or a relevant doctrine for investigators? Recent developments in the Netherlands | citeseerx = 10.1.1.129.4720 | journal = Connections | volume = 24 | pages = 53–65 }}</ref>第一代是由哈珀 Harper和哈里斯 Harris在1975年引入的阿纳卡帕图 Anacpapa Chart。<ref>Harper and Harris, The Analysis of Criminal Intelligence, Human Factors and Ergonomics Society Annual Meeting Proceedings, 19(2), 1975, pp. 232-238.</ref>这种方法需要一个领域专家来查看数据文件，通过构造一个关联矩阵来识别关联，然后创建一个用于可视化的链路图，最后通过分析网络图来识别兴趣模式。这种方法需要广泛的领域知识，且因要审查大量数据，所以非常耗时。

除了关联矩阵外，活动矩阵也可用于生成对执法具有实用和使用价值的可操作的信息。正如这个术语可能暗示的那样，活动矩阵关注的是人们基于地点的行动和活动。而关联矩阵关注的是人，组织和/或属性之间的关系。这两类矩阵之间的区别虽然很小，但就完成或提供的数据来看，这些区别还是很重要的。<ref>{{cite web|url=http://www.globalsecurity.org/military/library/policy/army/fm/3-07-22/app-f.htm|title=FMI 3-07.22 Appendix F Intelligence Analysis Tools and Indicators|first=John|last=Pike|publisher=}}</ref><ref>[https://rdl.train.army.mil/catalog/view/100.ATSC/41449AB4-E8E0-46C4-8443-E4276B6F0481-1274576841878/3-24/appb.htm Social Network Analysis and Other Analytical Tools] </ref><ref>{{cite web|url=http://www.nasa.gov/audience/foreducators/topnav/materials/listbytype/Aeronautics_Activity_Matrices.html|title=Aeronautics Educator Guide - Activity Matrices|first=Rebecca Whitaker|last=MSFC|date=10 July 2009|publisher=}}</ref><ref>[https://rdl.train.army.mil/catalog/view/100.ATSC/0EF89CA1-2680-4782-B103-D2F5DC941188-1274309335668/7-98-1/chap2l6.htm Personality/Activity Matrix] </ref>

第68行：第68行：

由于大量数据和信息以电子形式存储，用户可能会面临拥有多种不相关的信息来源却不知如何分析的难题。数据分析技术的使用可以帮助有效和高效地利用数据。帕尔希卡尔 Palshikar将数据分析技术分为两大类（统计模型、时间序列分析、聚类分类、异常检测匹配算法）和人工智能（AI）技术（数据挖掘、专家系统、模式识别、机器学习技术、神经网络）。<ref>Palshikar, G. K., [http://www.intelligententerprise.com//020528/509feat3_1.jhtml The Hidden Truth], Intelligent Enterprise, May 2002.</ref>

−

博尔顿 Bolton和汉德 Hand将统计数据分析定义为有监督或无监督的方法。<ref>Bolton, R. J. & Hand, D. J., Statistical Fraud Detection: A Review, Statistical Science, 2002, 17(3), pp. 235-255.</ref>'''~~~~监督式学习方法 Supervised Learning Methods~~~~'''要求在系统中有明确的规则来指出什么是预期行为，什么是意外行为。'''~~~~非监督式学习方法 Unsupervised Learning ~~Methods~~'''在审视数据时，通过将数据与正常值的比较，来发现统计异常值。监督式学习方法能处理的场景是有限的，因为这种方法需要基于以前的模式建立训练规则。非监督式学习方法可以检测更广泛的问题。但是，如果数据的行为规范没有很好的建立或被机器理解，可能会导致较高的误报率。

+

博尔顿 Bolton和汉德 Hand将统计数据分析定义为有监督或无监督的方法。<ref>Bolton, R. J. & Hand, D. J., Statistical Fraud Detection: A Review, Statistical Science, 2002, 17(3), pp. 235-255.</ref>'''监督式学习方法 Supervised Learning Methods'''要求在系统中有明确的规则来指出什么是预期行为，什么是意外行为。'''非监督式学习方法 Unsupervised Learning '''Methods在审视数据时，通过将数据与正常值的比较，来发现统计异常值。监督式学习方法能处理的场景是有限的，因为这种方法需要基于以前的模式建立训练规则。非监督式学习方法可以检测更广泛的问题。但是，如果数据的行为规范没有很好的建立或被机器理解，可能会导致较高的误报率。

数据本身存在固有的问题，包括完整性（或缺失性）和持续的改变。数据可能包含'''“由于收集或处理不当，以及试图欺骗或隐瞒其行为而造成的遗漏和委托错误”。''' <ref name="Link Analysis Workbench"/> Sparrow<ref>Sparrow M.K. 1991. Network Vulnerabilities and Strategic Intelligence in Law Enforcement’, International Journal of Intelligence and Counterintelligence Vol. 5 #3.</ref>强调了数据分析中三个主要的问题，不完整性（数据或链路缺失的必然性）、模糊边界（边界确定的主观性）和动态变化（数据的持续变化性）。<ref name=Krebs/>

−

一旦数据转换成可用的格式，就会出现开放结构和交叉引用问题。魏斯曼 Waismann将'''~~~~ 开放结构 Open Texture~~~~'''定义为在不同语境中使用经验词汇时不可避免的语义不确定性。<ref>Friedrich Waismann, Verifiability (1945), p.2.</ref>当试图从多个数据源搜索和交叉引用数据时，术语含义的不确定性带来了问题。<ref>Lyons, D., [http://ssrn.com/abstract=212328 Open Texture and the Possibility of Legal Interpretation (2000)].</ref>

+

一旦数据转换成可用的格式，就会出现开放结构和交叉引用问题。魏斯曼 Waismann将'''开放结构 Open Texture'''定义为在不同语境中使用经验词汇时不可避免的语义不确定性。<ref>Friedrich Waismann, Verifiability (1945), p.2.</ref>当试图从多个数据源搜索和交叉引用数据时，术语含义的不确定性带来了问题。<ref>Lyons, D., [http://ssrn.com/abstract=212328 Open Texture and the Possibility of Legal Interpretation (2000)].</ref>

目前，解决数据分析中这些问题的主要方法是依赖专家的领域知识。如此进行链路分析是非常耗时和昂贵的，并且无法排除其自身固有的问题。麦格拉斯 McGrath 等人得出结论：网络图的分布和表示方式对用户的“对存在在网络中群体的感知”有重大影响。<ref>McGrath, C., Blythe, J., Krackhardt, D., [http://www.andrew.cmu.edu/user/cm3t/groups.html Seeing Groups in Graph Layouts].</ref> 即使是领域内的专家也可能得出不同的结论，因为他们的分析可能是很主观的。

第100行：第100行：

* 通过概念空间方法创建网络，该方法使用“共现网络”来衡量两个单词或短语在同一文档中出现的频率。两个单词或短语在一起出现的频率越高，它们关联的可能性就越大。<ref name=Xu/>

* 网络分区通过“根据关系强度的分层聚类，将网络划分为子组”而实现。<ref name=Xu/>

−

* 通过“三种中心性度量（度中心性，中介中心性和接近中心性）来识别给定子集中的中心成员”进行结构分析。CrimeNet ~~Explorer使用''' 迪杰斯特拉最短路径算法~~ Dijkstra’s shortest-path ~~algorithm'''来计算从单个节点到子组中所有其他节点的中介数和紧密程度。~~

+

* 通过“三种中心性度量（度中心性，中介中心性和接近中心性）来识别给定子集中的中心成员”进行结构分析。CrimeNet Explorer使用迪杰斯特拉最短路径算法 Dijkstra’s shortest-path algorithm来计算从单个节点到子组中所有其他节点的中介数和紧密程度。

* 使用托格森的度量多维标度（MDS）算法进行网络可视化。

第126行：第126行：

== 编者推荐==

−

===[https://campus.swarma.org/course/1863 集智学园：基于图注意网络的链路预测]===

+

====[https://campus.swarma.org/course/1863 集智学园：基于图注意网络的链路预测]====

讲师为谷伟伟，是北京化工大学信息科学与技术学院的讲师。目前的研究领域主要包括复杂网络表征学习、复杂网络理论、中国风险投资网络分析等。曾以第一作者或者共同第一作者发表学术文章4篇。其中关于中国风险投资网络演化的文章于2019年发表在社会网络分析的顶级期刊《Social Networks》上面。

−

~~本报告基于中国风险投资的实证数据，建模了风险投资网络的演化过程，揭示了中国风险投资界的小世界及精英俱乐部的性质。~~

+

该报告基于中国风险投资的实证数据，建模了风险投资网络的演化过程，揭示了中国风险投资界的小世界及精英俱乐部的性质。

−

===[https://campus.swarma.org/course/1156 集智学院：数据分析2020]===

+

====[https://campus.swarma.org/course/1156 集智学院：数据分析2020]====

[[File:11e62aa803f61771a9123fc7ad3776d2.png|right|thumb|数据分析2020]]

−

本系列课程为北京师范大学系统科学学院樊瑛老师开设的研究生课程《数据分析》课程回放。课程通过理论、案例、实践三方面，介绍统计分析及其在实际领域中的应用，时长为15h5min。

+

该系列课程为北京师范大学系统科学学院樊瑛老师开设的研究生课程《数据分析》课程回放。课程通过理论、案例、实践三方面，介绍统计分析及其在实际领域中的应用，时长为15h5min。

'''樊瑛''' 北京师范大学系统科学学院教授、博士生导师。中国系统工程学会副秘书长、常务理事。研究方向为复杂性理论及其在各领域中的应用，目前主要关注复杂网络相关研究，并取得了一系列科研成果。曾获得2009年度教育部新世纪人才、2010年度北京市科学技术奖（三等）以及学校第11届励耘优秀青年教师奖和通鼎研究生教学奖，主讲的《复杂网络分析》课程2019年在中国大学慕课网上线，现已完成2期授课。

−

===[https://blog.csdn.net/qq_41648804/article/details/103349067?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162610696216780271557670%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=162610696216780271557670&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-103349067.first_rank_v2_pc_rank_v29_1&utm_term=%E9%93%BE%E8%B7%AF%E5%88%86%E6%9E%90&spm=1018.2226.3001.4187 CSDN：北冥有一条鱼链路分析（Link analysis）]===

+

====[https://blog.csdn.net/qq_41648804/article/details/103349067?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162610696216780271557670%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=162610696216780271557670&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-103349067.first_rank_v2_pc_rank_v29_1&utm_term=%E9%93%BE%E8%B7%AF%E5%88%86%E6%9E%90&spm=1018.2226.3001.4187 CSDN：北冥有一条鱼链路分析（Link analysis）]====

第142行：第144行：

----

−

~~本中文词条由Ryan参与编译，WildBoar审校，糖糖编辑，如有问题，欢迎在讨论页面留言。~~

+

本中文词条由Ryan参与编译，WildBoar审校，[[用户:唐糖糖|糖糖]]编辑，如有问题，欢迎在讨论页面留言。

−

'''本词条内容源自wikipedia及公开资料，遵守 CC3.0协议。'''

薄荷

7,129

个编辑

更改

链路分析 (查看源代码)

2021年7月31日 (六) 13:15的版本

导航菜单

搜索