MapReduce algorithm

MapReduce

process: input - map（数据的过滤、分发、转换成k-v） - combiner(local reduce) - shuffle - reduce - output

Sorting 按照key-value形式的数据项，tuples (key-value pairs) 排序后可以进行按照块进行读写，加快了速度（write: map后； read: reduce前）避免全表扫描
Searching hadoop内置比较器： WritableComparable WritableComparator
Indexing inverted index 倒排索引
TF-IDF

Term Frequency − Inverse Document Frequency. (TF-IDF) 词频-逆向文件频率

字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。倾向于过滤掉常见的词语，保留重要的词语

result = TF * IDF

应用：关键词、文本摘要