当存在一个确定的算法时,使用机器学习来解决问题的效果反而不好。 机器学习的优势在于当算法不确定时,或者是算法的 参数 不确定时, 通过机器学习获得一个比较正确的参数。
数据挖掘有两个重要的方向:
邦弗朗尼原理是说如果匹配到某种事情的期望,相对于希望发生事情的期望来说, 前者远大于后者,那么这种统计分析方法无效。
TF.IDF用于确定词语在文档中的重要性。
分布式文件系统通过冗余来增加数据的可靠性, 通过主节点来定位用于节点的位置。
Map-Reduce在出错情况下的处理:
Map出错,重启所有Map, Reduce出错,只要重启这个Reduce就行。