MapReduce algorithm

MapReduce

process: input - map(数据的过滤、分发、转换成k-v) - combiner(local reduce) - shuffle - reduce - output

  • Sorting 按照key-value形式的数据项,tuples (key-value pairs) 排序后可以进行按照块进行读写,加快了速度(write: map后; read: reduce前) 避免全表扫描

  • Searching hadoop内置比较器: WritableComparable WritableComparator

  • Indexing inverted index 倒排索引

  • TF-IDF

Term Frequency − Inverse Document Frequency. (TF-IDF) 词频-逆向文件频率

字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 倾向于过滤掉常见的词语,保留重要的词语

result = TF * IDF

应用: 关键词、文本摘要