第5行: |
第5行: |
| | | |
| | | |
− | 在'''<font color="#ff8000">网络理论 Network Theory</font>'''中,'''<font color="#ff8000"> 链路分析 Link Analysis</font>'''是一种用于评估节点之间关系(连接)的'''<font color="#ff8000">数据分析 Data Analysis</font>'''技术。该技术可以鉴别各种类型节点(对象)之间的关系,包括组织、人和金融交易。链路分析已被应用于诸多领域,如打击犯罪活动(如欺诈侦查、反恐和情报)、计算机安全分析、搜索引擎优化、市场调查、医学研究和艺术。 | + | 在'''<font color="#ff8000">网络理论 Network Theory</font>'''中,'''<font color="#ff8000"> 链路分析 Link Analysis</font>'''是一种用于评估节点之间关系(连接)的'''<font color="#ff8000">数据分析 Data Analysis</font>'''技术。该技术可以鉴别各种类型节点(对象)之间的关系,包括组织、人和金融交易。链路分析已被应用于诸多领域,如打击犯罪活动(如欺诈侦查、反恐和情报)、计算机安全分析、搜索引擎优化、市场调查、医学研究和艺术。 |
| | | |
| | | |
| ==知识发现== | | ==知识发现== |
− | '''<font color="#ff8000"> 知识发现 Knowledge Discovery</font>''',是指不断地识别、分析和可视化数据中的内在模式,这是一个持续迭代和交互的过程。<ref>{{cite web|url=https://www.torproject.org/about/overview.html.en|title=Tor Project: Overview|first=The Tor Project|last=Inc.|publisher=}}</ref>网络分析、链路分析和'''<font color="#ff8000">社会网络分析 Social Network Analysis</font>'''都是知识发现的方法,它们都是属于'''<font color="#ff8000"> 先验方法 Prior Method</font>'''。大多数知识发现方法遵循以下几个步骤('''<font color="#32CD32">在最高级别</font>''') :<ref>Ahonen, H., [http://www.cs.helsinki.fi/u/hahonen/features.txt Features of Knowledge Discovery Systems].</ref> | + | '''<font color="#ff8000"> 知识发现 Knowledge Discovery</font>''',是指不断地识别、分析和可视化数据中的内在模式,这是一个持续迭代和交互的过程。<ref>{{cite web|url=https://www.torproject.org/about/overview.html.en|title=Tor Project: Overview|first=The Tor Project|last=Inc.|publisher=}}</ref>网络分析、链路分析和'''<font color="#ff8000">社会网络分析 Social Network Analysis</font>'''都是知识发现的方法,它们都是属于'''<font color="#ff8000"> 先验方法 Prior Method</font>'''。大多数知识发现方法遵循以下几个步骤('''<font color="#32CD32">在最高级别</font>'''):<ref>Ahonen, H., [http://www.cs.helsinki.fi/u/hahonen/features.txt Features of Knowledge Discovery Systems].</ref> |
| #数据处理 | | #数据处理 |
| #数据转换 | | #数据转换 |
第17行: |
第17行: |
| 数据的收集和处理需要访问数据,但此过程存在一些固有的问题,包括'''<font color="#ff8000">信息超载 Information Overload</font>'''和数据错误等。在数据被收集后,它将转换成一种人和计算机分析程序都能有效使用的格式。之后基于数据,可使用计算机生成的或人工操作的可视化工具进行作图(如网络图)。目前有几种算法可以帮助人类进行数据分析-'''<font color="#ff8000">迪杰斯特算法 Dijkstra’s algorithm</font>''','''<font color="#ff8000">广度优先搜索 Breadth-First Search</font>'''和'''<font color="#ff8000"> 深度优先搜索 Depth-First Search</font>'''。 | | 数据的收集和处理需要访问数据,但此过程存在一些固有的问题,包括'''<font color="#ff8000">信息超载 Information Overload</font>'''和数据错误等。在数据被收集后,它将转换成一种人和计算机分析程序都能有效使用的格式。之后基于数据,可使用计算机生成的或人工操作的可视化工具进行作图(如网络图)。目前有几种算法可以帮助人类进行数据分析-'''<font color="#ff8000">迪杰斯特算法 Dijkstra’s algorithm</font>''','''<font color="#ff8000">广度优先搜索 Breadth-First Search</font>'''和'''<font color="#ff8000"> 深度优先搜索 Depth-First Search</font>'''。 |
| | | |
− | 链路分析主要通过可视化方法(网络图、关联矩阵)分析节点之间的关系。这里有一个基于犯罪侦查绘制网图的例子:<ref name=Krebs>Krebs, V. E. 2001, [http://vlado.fmf.uni-lj.si/pub/networks/doc/Seminar/Krebs.pdf Mapping networks of terrorist cells], Connections 24, 43–52.</ref>
| + | 链路分析主要通过可视化方法(网络图、关联矩阵)分析节点之间的关系。这里有一个基于犯罪侦查绘制网图的例子:<ref name=Krebs>Krebs, V. E. 2001, [http://vlado.fmf.uni-lj.si/pub/networks/doc/Seminar/Krebs.pdf Mapping networks of terrorist cells], Connections 24, 43–52.</ref> |
| | | |
| | | |
第36行: |
第36行: |
| #在数据中寻找已知兴趣模式的匹配; | | #在数据中寻找已知兴趣模式的匹配; |
| #发现与已知模式不相符的异常数据; | | #发现与已知模式不相符的异常数据; |
− | #发现新的兴趣模式(社会网络分析、数据挖掘)。 | + | #发现新的兴趣模式(社会网络分析、数据挖掘)。 |
| | | |
| | | |
第54行: |
第54行: |
| * 爱荷华州性犯罪分析系统 | | * 爱荷华州性犯罪分析系统 |
| * 明尼苏达州性犯罪分析系统 | | * 明尼苏达州性犯罪分析系统 |
− | * 华盛顿州凶杀案调查追踪系统(HITS)<ref>{{cite web|url=http://www.atg.wa.gov/HITS.aspx |title=Archived copy |accessdate=2010-10-31 |url-status=dead |archiveurl=https://web.archive.org/web/20101021005202/http://atg.wa.gov/HITS.aspx |archivedate=2010-10-21 }}</ref> | + | * 华盛顿州凶杀案调查追踪系统(HITS)<ref>{{cite web|url=http://www.atg.wa.gov/HITS.aspx |title=Archived copy |accessdate=2010-10-31 |url-status=dead |archiveurl=https://web.archive.org/web/20101021005202/http://atg.wa.gov/HITS.aspx |archivedate=2010-10-21 }}</ref> |
| * 纽约州凶杀案调查和线索追踪系统 | | * 纽约州凶杀案调查和线索追踪系统 |
− | * 新泽西州凶杀案评估与测评跟踪系统(HEAT)<ref>{{cite web|url=http://www.state.nj.us/njsp/divorg/invest/invest.html |title=Archived copy |accessdate=2010-10-31 |url-status=dead |archiveurl=https://web.archive.org/web/20090325004722/http://www.state.nj.us/njsp/divorg/invest/invest.html |archivedate=2009-03-25 }}</ref> | + | * 新泽西州凶杀案评估与测评跟踪系统(HEAT)<ref>{{cite web|url=http://www.state.nj.us/njsp/divorg/invest/invest.html |title=Archived copy |accessdate=2010-10-31 |url-status=dead |archiveurl=https://web.archive.org/web/20090325004722/http://www.state.nj.us/njsp/divorg/invest/invest.html |archivedate=2009-03-25 }}</ref> |
| * 宾夕法尼亚州ATAC程序 | | * 宾夕法尼亚州ATAC程序 |
| * 暴力犯罪联系分析系统<ref>{{cite web|url=http://www.rcmp-grc.gc.ca/tops-opst/bs-sc/viclas-salvac-eng.htm |title=Archived copy |accessdate=2010-10-31 |url-status=dead |archiveurl=https://web.archive.org/web/20101202144141/http://www.rcmp-grc.gc.ca/tops-opst/bs-sc/viclas-salvac-eng.htm |archivedate=2010-12-02 }}</ref> | | * 暴力犯罪联系分析系统<ref>{{cite web|url=http://www.rcmp-grc.gc.ca/tops-opst/bs-sc/viclas-salvac-eng.htm |title=Archived copy |accessdate=2010-10-31 |url-status=dead |archiveurl=https://web.archive.org/web/20101202144141/http://www.rcmp-grc.gc.ca/tops-opst/bs-sc/viclas-salvac-eng.htm |archivedate=2010-12-02 }}</ref> |
第65行: |
第65行: |
| | | |
| ===信息过载=== | | ===信息过载=== |
− | 由于大量数据和信息以电子形式存储,用户可能会面临拥有多种不相关的信息来源却不知如何分析的难题。数据分析技术的使用可以帮助有效和高效地利用数据。帕尔希卡尔 Palshikar将数据分析技术分为两大类(统计模型、时间序列分析、聚类分类、异常检测匹配算法)和人工智能(AI)技术(数据挖掘、专家系统、模式识别、机器学习技术、神经网络)。<ref>Palshikar, G. K., [http://www.intelligententerprise.com//020528/509feat3_1.jhtml The Hidden Truth], Intelligent Enterprise, May 2002.</ref> | + | 由于大量数据和信息以电子形式存储,用户可能会面临拥有多种不相关的信息来源却不知如何分析的难题。数据分析技术的使用可以帮助有效和高效地利用数据。帕尔希卡尔 Palshikar将数据分析技术分为两大类(统计模型、时间序列分析、聚类分类、异常检测匹配算法)和人工智能(AI)技术(数据挖掘、专家系统、模式识别、机器学习技术、神经网络)。<ref>Palshikar, G. K., [http://www.intelligententerprise.com//020528/509feat3_1.jhtml The Hidden Truth], Intelligent Enterprise, May 2002.</ref> |
| | | |
| 博尔顿 Bolton &汉德 Hand 将统计数据分析定义为有监督或无监督的方法。<ref>Bolton, R. J. & Hand, D. J., Statistical Fraud Detection: A Review, Statistical Science, 2002, 17(3), pp. 235-255.</ref>'''<font color="#ff8000">监督式学习方法 Supervised Learning Methods</font>'''要求在系统中有明确的规则来指出什么是预期行为,什么是意外行为。'''<font color="#ff8000">非监督式学习方法 Unsupervised Learning Methods</font>'''在审视数据时,通过将数据与正常值的比较,来发现统计异常值。监督式学习方法能处理的场景是有限的,因为这种方法需要基于以前的模式建立训练规则。非监督式学习方法可以检测更广泛的问题。但是,如果数据的行为规范没有很好的建立或被机器理解,可能会导致较高的误报率。 | | 博尔顿 Bolton &汉德 Hand 将统计数据分析定义为有监督或无监督的方法。<ref>Bolton, R. J. & Hand, D. J., Statistical Fraud Detection: A Review, Statistical Science, 2002, 17(3), pp. 235-255.</ref>'''<font color="#ff8000">监督式学习方法 Supervised Learning Methods</font>'''要求在系统中有明确的规则来指出什么是预期行为,什么是意外行为。'''<font color="#ff8000">非监督式学习方法 Unsupervised Learning Methods</font>'''在审视数据时,通过将数据与正常值的比较,来发现统计异常值。监督式学习方法能处理的场景是有限的,因为这种方法需要基于以前的模式建立训练规则。非监督式学习方法可以检测更广泛的问题。但是,如果数据的行为规范没有很好的建立或被机器理解,可能会导致较高的误报率。 |
| | | |
− | 数据本身存在固有的问题,包括完整性(或缺失性)和持续的改变。数据可能包含'''<font color="#32CD32">“由于收集或处理不当,以及试图欺骗或隐瞒其行为而造成的遗漏和委托错误”。</font>''' <ref name="Link Analysis Workbench"/> Sparrow<ref>Sparrow M.K. 1991. Network Vulnerabilities and Strategic Intelligence in Law Enforcement’, [[International Journal of Intelligence and Counterintelligence]] Vol. 5 #3.</ref>强调了数据分析中三个主要的问题,不完整性(数据或链路缺失的必然性)、模糊边界(边界确定的主观性)和动态变化(数据的持续变化性)。<ref name=Krebs/>
| + | 数据本身存在固有的问题,包括完整性(或缺失性)和持续的改变。数据可能包含'''<font color="#32CD32">“由于收集或处理不当,以及试图欺骗或隐瞒其行为而造成的遗漏和委托错误”。</font>''' <ref name="Link Analysis Workbench"/> Sparrow<ref>Sparrow M.K. 1991. Network Vulnerabilities and Strategic Intelligence in Law Enforcement’, [[International Journal of Intelligence and Counterintelligence]] Vol. 5 #3.</ref>强调了数据分析中三个主要的问题,不完整性(数据或链路缺失的必然性)、模糊边界(边界确定的主观性)和动态变化(数据的持续变化性)。<ref name=Krebs/> |
| | | |
| 一旦数据转换成可用的格式,就会出现开放结构和交叉引用问题。魏斯曼 Waismann将'''<font color="#ff8000"> 开放结构 Open Texture</font>'''定义为在不同语境中使用经验词汇时不可避免的语义不确定性。<ref>Friedrich Waismann, Verifiability (1945), p.2.</ref>当试图从多个数据源搜索和交叉引用数据时,术语含义的不确定性带来了问题。<ref>Lyons, D., [http://ssrn.com/abstract=212328 Open Texture and the Possibility of Legal Interpretation (2000)].</ref> | | 一旦数据转换成可用的格式,就会出现开放结构和交叉引用问题。魏斯曼 Waismann将'''<font color="#ff8000"> 开放结构 Open Texture</font>'''定义为在不同语境中使用经验词汇时不可避免的语义不确定性。<ref>Friedrich Waismann, Verifiability (1945), p.2.</ref>当试图从多个数据源搜索和交叉引用数据时,术语含义的不确定性带来了问题。<ref>Lyons, D., [http://ssrn.com/abstract=212328 Open Texture and the Possibility of Legal Interpretation (2000)].</ref> |