Mining of Massive Data Sets
============================

第一章
----------------------------

当存在一个确定的算法时，使用机器学习来解决问题的效果反而不好。
机器学习的优势在于当算法不确定时，或者是算法的 **参数** 不确定时，
通过机器学习获得一个比较正确的参数。

数据挖掘有两个重要的方向:

数据汇总
    通过对总体的结构进行分析，得到数据的总体特点。

特征提取
    找到一些子集的性质和特点。

邦弗朗尼原理是说如果匹配到某种事情的期望，相对于希望发生事情的期望来说，
前者远大于后者，那么这种统计分析方法无效。

TF.IDF用于确定词语在文档中的重要性。

第二章
----------------------------

分布式文件系统通过冗余来增加数据的可靠性，
通过主节点来定位用于节点的位置。

Map-Reduce在出错情况下的处理::

    Map出错，重启所有Map, Reduce出错，只要重启这个Reduce就行。