数据拼图项目
数据拼图项目简介
在互联网大公司掌握着PB级数据的时代,中小咨询公司应该如何对抗这些大企业?
我们提出“数据积木”计划,以“全”搏“专”,应用研究人员的想象力,在一个研究项目中,对不同类型数据,例如文本、图像、关系、地理坐标、历史事件、进行组合,从而形成对研究对象的洞察和预测。在这个基础上形成的订制化的咨询报告,是大的互联网公司在现有框架下无法做到的。因为大公司无法围绕一个小型咨询项目去搜集和处理各种类型的数据(这涉及到成本极高的跨部门的合作)。同时,对于“是否应该从伊拉克撤兵”这样高度抽象的问题,即便愿意投入资源,也是大公司不擅长回答的,因为它擅长的是“大数据 - 通用模型 - 批量处理的具体问题“,例如“假如一个用户看了电影A,那么他有可能也喜欢电影B吗?” 综上,从成本收益比和效果两个方面看,这种咨询业务都比较适合于小型的,具有综合数据分析能力,擅长回答抽象问题的咨询团队。
数据拼图项目,就是建立这样团队的尝试。
数据拼图项目的基础是模型库(building blocks)。针对每一类数据,模型库给出处理本类数据的最小模型。使用python语言,我们建立了这样的模型库。模型库一旦建立,研究人员可以(1)针对具体项目,在核心逻辑上修改代码,使得它具有更好的分析能力 (2)以library形式调用多个最小模型,形成对具体项目的分析。
项目框架及实现
项目的基本架构: 模型库 —> 案例库 —> 定制化的咨询报告。
模型库的主要架构
数据类型 | 分析技术 | 用途举例 | 潜在机构客户 |
---|---|---|---|
文本 | 情感分析,主题提取 | 传统媒体数字化转型,公众舆论监测 | 政府宣传部门,媒体 |
关系 | 网络社区划分,传播层级分析 | 互联网广告投放规划,广告效果预测/监测 | 网站,互联网研究机构,互联网广告商,媒体,咨询公司 |
图像 | 图像处理 | 历史经济数据获取,搜索趋势监测,社交媒体账号分析 | 科研团体 |
地理坐标 | 空间聚类,分布分析,动态规划 | 交通监测/规划,商圈分析,房地产社区评估,疾病传播预防 | 交通规划部门,城市规划部门,商场,房地产,市场调查公司 |
时间序列 | 时间聚类,相关网络,分布分析 | 证券市场监测/预测,生活形态研究 | 券商,财经媒体,科研团体,咨询公司 |
参与Workshop人员及自选研究项目
主讲:计算士
Team A: LDH & LXQ
Team B: JJ & CK
Workshop议程安排
What I cannot create, I do not understand. —— Richard Feynman
第一周: 关系数据处理
2013-11-25(周一) 建构与分析简单的网络
2013-11-26(周二) 分析点击流网络数据
[ppt讲义]
[数据下载]
[[代码下载]]
2013-11-28(周四) 从Alexa网页上抓取点击流数据
使用python抓取及分析互联网数据 [ppt下载] [代码下载]
2013-11-29(周五) 使用compete API获得点击流数据
这里介绍了可以提供网站流量数据的几个网站
Compete API是做得比较规范的
这里介绍了使用Python matplotlib画各种图的方法
这里是本次课程的示例代码
第二周: 文本数据处理
2013-12-02(周一) 文本处理与情感分析入门
这里是本次分析的代码
Stanford natural language procesing group
2013-12-03(周二) 使用朴素贝叶斯模型判别论坛帖子是否辱骂性(Abusive)
原理介绍及代码实战的帖子在这里
2013-12-05(周四)使用KNN方法对文本分类
我们会用到sklearn这个机器学习的包,为了和这个包的最新版本配合,windows环境下pythonxy的使用者要到这里下载安装最新的numpy,然后到这里下载安装最新的sklearn。两者都是.exe文件,在windows下执行安装就可以。
为了解释文本的聚类分析,我们要先了解如何使用python做一般的(数值型变量)分类。代码及讨论见这个页面。
2013-12-06(周五)使用K-means聚类来进行问答类社区的帖子推荐
本次讲座的python代码在这里
其中用于实验的邮件数据,如果不能通过sklearn下载,可以在这里下载(需要免费注册账户)。
使用python画文字云的实验代码在这里
第三周:音频与图像数据处理
2013-12-09(周一)使用KNN对音乐进行分类
这里讨论了如何利用傅里叶变换对音乐进行分类
2013-12-12(周四)使用logistic回归对音乐进行分类
主讲内容见这里
2013-12-13(周五)对生物细胞图像进行处理
主讲内容见这里
第四周:地理数据处理
2013-12-16(周一)
2013-12-17(周二)
2013-12-19(周四)
2013-12-20(周五)
第五周:统计模型与机器学习
2013-12-23(周一)knn分类器
代码及讨论见这个页面。
2013-12-24(周二)
2013-12-25(周三)
2013-12-26(周四)
2013-12-27(周五)
第六周:围绕具体研发项目的讨论
课程讨论区
@jingjing项目:可视化一个旅游销售表
@jingjing问题:又炫又好看的图是从哪来的?
@jingjing项目:网站间(或网站内频道间)流量流动关系图绘制
@jingjing问题:关系数据分析对表格中提到的“广告投放规划,效果预测与监测”有什么用?;基于关系分类的作用能有什么应用?
Q by LDH:可否使用热力图(等高线图)展示因子分析的结果。 示例:
(请注意图片右侧的解释,颜色有可能就是值而已)
A: 可以使用plt.contourf这个命令实现,颜色主题选用'RdBu',示例图如下:
代码在这里。可以在这里寻找其他的配色方案,在这里测试不同函数的等高线效果。
纽约Twitter可视化cascade
@jingjing项目:根据各个省市景点的人流量分析旅游热点城市及其变化(需要先找数据)
@jingjing问题:表格中“房地产评估”的作用如何落地?
@jingjing项目:可视化一个旅游销售表
@jingjing问题:又炫又好看的图是从哪来的?
Q by LDH:可否使用热力图(等高线图)展示双自变量回归分析的结果。
课程参考资料
参考书目
150px 200px 150px在线阅读地址这里是NLTK的官方介绍 400px
Data Science and Prediction by Vasant Dhar on Communications of the ACM [原文链接]
D3 : Data-Driven Documents by Michael Bostock, Vadim Ogievetsky and Jeffrey Heer from Vis Group in Standford [原文链接]
2. 基于论文Distilling Free-Form Natural Laws from Experimental Data成立的公司nutonian
在这里下载电子版
这里列出了机器学习的一些基本模型。