Mining of Massive Data Sets¶

第一章¶

当存在一个确定的算法时，使用机器学习来解决问题的效果反而不好。机器学习的优势在于当算法不确定时，或者是算法的参数不确定时，通过机器学习获得一个比较正确的参数。

数据挖掘有两个重要的方向:

邦弗朗尼原理是说如果匹配到某种事情的期望，相对于希望发生事情的期望来说，前者远大于后者，那么这种统计分析方法无效。

TF.IDF用于确定词语在文档中的重要性。

分布式文件系统通过冗余来增加数据的可靠性，通过主节点来定位用于节点的位置。

Map-Reduce在出错情况下的处理:

Map出错，重启所有Map, Reduce出错，只要重启这个Reduce就行。