Mining of Massive Data Sets

第一章

当存在一个确定的算法时,使用机器学习来解决问题的效果反而不好。 机器学习的优势在于当算法不确定时,或者是算法的 参数 不确定时, 通过机器学习获得一个比较正确的参数。

数据挖掘有两个重要的方向:

数据汇总
通过对总体的结构进行分析,得到数据的总体特点。
特征提取
找到一些子集的性质和特点。

邦弗朗尼原理是说如果匹配到某种事情的期望,相对于希望发生事情的期望来说, 前者远大于后者,那么这种统计分析方法无效。

TF.IDF用于确定词语在文档中的重要性。

第二章

分布式文件系统通过冗余来增加数据的可靠性, 通过主节点来定位用于节点的位置。

Map-Reduce在出错情况下的处理:

Map出错,重启所有Map, Reduce出错,只要重启这个Reduce就行。

Table Of Contents

Previous topic

Effective Java

Next topic

Introduction to Data Mining

This Page