第9行: |
第9行: |
| | | |
| ==知识发现== | | ==知识发现== |
− | '''<font color="#ff8000"> 知识发现 Knowledge Discovery</font>''',是指不断地识别、分析和可视化数据中的内在模式,这是一个持续迭代和交互的过程。<ref>{{cite web|url=https://www.torproject.org/about/overview.html.en|title=Tor Project: Overview|first=The Tor Project|last=Inc.|publisher=}}</ref>网络分析、链路分析和'''<font color="#ff8000">社会网络分析 Social Network Analysis</font>'''都是知识发现的方法,它们都是属于'''<font color="#ff8000"> 先验方法 Prior Method</font>'''。大多数知识发现方法遵循以下几个步骤('''<font color="#32CD32">在最高级别</font>'''):<ref>Ahonen, H., [http://www.cs.helsinki.fi/u/hahonen/features.txt Features of Knowledge Discovery Systems].</ref> | + | '''<font color="#ff8000"> 知识发现 Knowledge Discovery</font>''',是指不断地识别、分析和可视化数据中的内在模式,这是一个持续迭代和交互的过程。<ref>{{cite web|url=https://www.torproject.org/about/overview.html.en|title=Tor Project: Overview|first=The Tor Project|last=Inc.|publisher=}}</ref>网络分析、链路分析和'''<font color="#ff8000">社会网络分析 Social Network Analysis</font>'''都是知识发现的方法,它们都是属于'''<font color="#ff8000"> 先验方法 Prior Method</font>'''。大多数知识发现方法遵循以下几个步骤('''在最高级别'''):<ref>Ahonen, H., [http://www.cs.helsinki.fi/u/hahonen/features.txt Features of Knowledge Discovery Systems].</ref> |
| #数据处理 | | #数据处理 |
| #数据转换 | | #数据转换 |
第68行: |
第68行: |
| 由于大量数据和信息以电子形式存储,用户可能会面临拥有多种不相关的信息来源却不知如何分析的难题。数据分析技术的使用可以帮助有效和高效地利用数据。帕尔希卡尔 Palshikar将数据分析技术分为两大类(统计模型、时间序列分析、聚类分类、异常检测匹配算法)和人工智能(AI)技术(数据挖掘、专家系统、模式识别、机器学习技术、神经网络)。<ref>Palshikar, G. K., [http://www.intelligententerprise.com//020528/509feat3_1.jhtml The Hidden Truth], Intelligent Enterprise, May 2002.</ref> | | 由于大量数据和信息以电子形式存储,用户可能会面临拥有多种不相关的信息来源却不知如何分析的难题。数据分析技术的使用可以帮助有效和高效地利用数据。帕尔希卡尔 Palshikar将数据分析技术分为两大类(统计模型、时间序列分析、聚类分类、异常检测匹配算法)和人工智能(AI)技术(数据挖掘、专家系统、模式识别、机器学习技术、神经网络)。<ref>Palshikar, G. K., [http://www.intelligententerprise.com//020528/509feat3_1.jhtml The Hidden Truth], Intelligent Enterprise, May 2002.</ref> |
| | | |
− | 博尔顿 Bolton &汉德 Hand 将统计数据分析定义为有监督或无监督的方法。<ref>Bolton, R. J. & Hand, D. J., Statistical Fraud Detection: A Review, Statistical Science, 2002, 17(3), pp. 235-255.</ref>'''<font color="#ff8000">监督式学习方法 Supervised Learning Methods</font>'''要求在系统中有明确的规则来指出什么是预期行为,什么是意外行为。'''<font color="#ff8000">非监督式学习方法 Unsupervised Learning Methods</font>'''在审视数据时,通过将数据与正常值的比较,来发现统计异常值。监督式学习方法能处理的场景是有限的,因为这种方法需要基于以前的模式建立训练规则。非监督式学习方法可以检测更广泛的问题。但是,如果数据的行为规范没有很好的建立或被机器理解,可能会导致较高的误报率。 | + | 博尔顿 Bolton和汉德 Hand将统计数据分析定义为有监督或无监督的方法。<ref>Bolton, R. J. & Hand, D. J., Statistical Fraud Detection: A Review, Statistical Science, 2002, 17(3), pp. 235-255.</ref>'''<font color="#ff8000">监督式学习方法 Supervised Learning Methods</font>'''要求在系统中有明确的规则来指出什么是预期行为,什么是意外行为。'''<font color="#ff8000">非监督式学习方法 Unsupervised Learning Methods</font>'''在审视数据时,通过将数据与正常值的比较,来发现统计异常值。监督式学习方法能处理的场景是有限的,因为这种方法需要基于以前的模式建立训练规则。非监督式学习方法可以检测更广泛的问题。但是,如果数据的行为规范没有很好的建立或被机器理解,可能会导致较高的误报率。 |
| | | |
− | 数据本身存在固有的问题,包括完整性(或缺失性)和持续的改变。数据可能包含'''<font color="#32CD32">“由于收集或处理不当,以及试图欺骗或隐瞒其行为而造成的遗漏和委托错误”。</font>''' <ref name="Link Analysis Workbench"/> Sparrow<ref>Sparrow M.K. 1991. Network Vulnerabilities and Strategic Intelligence in Law Enforcement’, International Journal of Intelligence and Counterintelligence Vol. 5 #3.</ref>强调了数据分析中三个主要的问题,不完整性(数据或链路缺失的必然性)、模糊边界(边界确定的主观性)和动态变化(数据的持续变化性)。<ref name=Krebs/> | + | 数据本身存在固有的问题,包括完整性(或缺失性)和持续的改变。数据可能包含'''“由于收集或处理不当,以及试图欺骗或隐瞒其行为而造成的遗漏和委托错误”。''' <ref name="Link Analysis Workbench"/> Sparrow<ref>Sparrow M.K. 1991. Network Vulnerabilities and Strategic Intelligence in Law Enforcement’, International Journal of Intelligence and Counterintelligence Vol. 5 #3.</ref>强调了数据分析中三个主要的问题,不完整性(数据或链路缺失的必然性)、模糊边界(边界确定的主观性)和动态变化(数据的持续变化性)。<ref name=Krebs/> |
| | | |
| 一旦数据转换成可用的格式,就会出现开放结构和交叉引用问题。魏斯曼 Waismann将'''<font color="#ff8000"> 开放结构 Open Texture</font>'''定义为在不同语境中使用经验词汇时不可避免的语义不确定性。<ref>Friedrich Waismann, Verifiability (1945), p.2.</ref>当试图从多个数据源搜索和交叉引用数据时,术语含义的不确定性带来了问题。<ref>Lyons, D., [http://ssrn.com/abstract=212328 Open Texture and the Possibility of Legal Interpretation (2000)].</ref> | | 一旦数据转换成可用的格式,就会出现开放结构和交叉引用问题。魏斯曼 Waismann将'''<font color="#ff8000"> 开放结构 Open Texture</font>'''定义为在不同语境中使用经验词汇时不可避免的语义不确定性。<ref>Friedrich Waismann, Verifiability (1945), p.2.</ref>当试图从多个数据源搜索和交叉引用数据时,术语含义的不确定性带来了问题。<ref>Lyons, D., [http://ssrn.com/abstract=212328 Open Texture and the Possibility of Legal Interpretation (2000)].</ref> |
第126行: |
第126行: |
| | | |
| == 编者推荐== | | == 编者推荐== |
− | ===[https://campus.swarma.org/course/1863 基于图注意网络的链路预测]=== | + | ===[https://campus.swarma.org/course/1863 集智学园:基于图注意网络的链路预测]=== |
− | 本报告基于中国风险投资的实证数据,建模了风险投资网络的演化过程,揭示了中国风险投资界的小世界及精英俱乐部的性质
| + | 讲师为谷伟伟,是北京化工大学信息科学与技术学院的讲师。目前的研究领域主要包括复杂网络表征学习、复杂网络理论、中国风险投资网络分析等。曾以第一作者或者共同第一作者发表学术文章4篇。其中关于中国风险投资网络演化的文章于2019年发表在社会网络分析的顶级期刊《Social Networks》上面。 |
− | ===[https://campus.swarma.org/course/1156 数据分析 2020]===
| |
− | 本系列课程为北京师范大学系统科学学院樊瑛老师开设的《数据分析》课程回放。
| |
− | ===[https://blog.csdn.net/qq_41648804/article/details/103349067?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162610696216780271557670%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=162610696216780271557670&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-103349067.first_rank_v2_pc_rank_v29_1&utm_term=%E9%93%BE%E8%B7%AF%E5%88%86%E6%9E%90&spm=1018.2226.3001.4187 北冥有一条鱼 链路分析(Link analysis)]===
| |
| | | |
| + | 本报告基于中国风险投资的实证数据,建模了风险投资网络的演化过程,揭示了中国风险投资界的小世界及精英俱乐部的性质。 |
| + | ===[https://campus.swarma.org/course/1156 集智学院:数据分析2020]=== |
| + | [[File:11e62aa803f61771a9123fc7ad3776d2.png|right|thumb|数据分析2020]] |
| + | 本系列课程为北京师范大学系统科学学院樊瑛老师开设的研究生课程《数据分析》课程回放。课程通过理论、案例、实践三方面,介绍统计分析及其在实际领域中的应用,时长为15h5min。 |
| + | '''樊瑛''' 北京师范大学系统科学学院教授、博士生导师。中国系统工程学会副秘书长、常务理事。研究方向为复杂性理论及其在各领域中的应用,目前主要关注复杂网络相关研究,并取得了一系列科研成果。曾获得2009年度教育部新世纪人才、2010年度北京市科学技术奖(三等)以及学校第11届励耘优秀青年教师奖和通鼎研究生教学奖,主讲的《复杂网络分析》课程2019年在中国大学慕课网上线,现已完成2期授课。 |
| + | |
| + | ===[https://blog.csdn.net/qq_41648804/article/details/103349067?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162610696216780271557670%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=162610696216780271557670&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-103349067.first_rank_v2_pc_rank_v29_1&utm_term=%E9%93%BE%E8%B7%AF%E5%88%86%E6%9E%90&spm=1018.2226.3001.4187 CSDN:北冥有一条鱼 链路分析(Link analysis)]=== |
| | | |
| | | |