MapReduce
process: input - map(数据的过滤、分发、转换成k-v) - combiner(local reduce) - shuffle - reduce - output
-
Sorting 按照key-value形式的数据项,tuples (key-value pairs) 排序后可以进行按照块进行读写,加快了速度(write: map后; read: reduce前) 避免全表扫描
-
Searching hadoop内置比较器: WritableComparable WritableComparator
-
Indexing inverted index 倒排索引
-
TF-IDF
Term Frequency − Inverse Document Frequency. (TF-IDF) 词频-逆向文件频率
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 倾向于过滤掉常见的词语,保留重要的词语
result = TF * IDF
应用: 关键词、文本摘要