博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
MapReduce程序的优化
阅读量:5069 次
发布时间:2019-06-12

本文共 551 字,大约阅读时间需要 1 分钟。

MapReduce程序的优化主要集中在两个方面:一个是运算性能方面的优化;另一个是IO操作方面的优化。

具体体现在以下的几个环节之上:

1. 任务调度

a. 尽量选择空闲节点进行计算

b. 尽量把任务分配给InputSplit所在机器

 

2. 数据预处理与InputSplit的大小

尽量处理少量的大数据;而不是大量的小数据。因此可以在处理前对数据进行一次预处理,将数据进行合并。

如果自己懒得合并,可以参考使用CombineFileInputFormat函数。具体用法请查阅相关函数手册。

 

3. Map和Reduce任务的数量

Map任务槽中任务的数量需要参考Map的运行时间,而Reduce任务的数量则只需要参考Map槽中的任务数,一般是0.95或1.75倍。

 

4. 使用Combine函数

该函数用于合并本地的数据,可以大大减少网络消耗。具体请参考函数手册。

 

5. 压缩

可以对一些中间数据进行压缩处理,达到减少网络消耗的目的。

 

6. 自定义comparator

可以自定义数据类型实现更复杂的目的。

 

转载:http://www.cnblogs.com/muchen/

转载于:https://www.cnblogs.com/dtdx-xiangyang/articles/7101970.html

你可能感兴趣的文章
BZOJ 1047 HAOI2007 理想的正方形 单调队列
查看>>
各种语言推断是否是手机设备
查看>>
marquee标签
查看>>
这个看起来有点简单!--------实验吧
查看>>
小知识:js如何更改css样式
查看>>
PHP count down
查看>>
JVM参数调优:Eclipse启动实践
查看>>
(旧笔记搬家)struts.xml中单独页面跳转的配置
查看>>
不定期周末福利:数据结构与算法学习书单
查看>>
strlen函数
查看>>
Java中的String,StringBuilder,StringBuffer三者的区别
查看>>
Laxcus大数据管理系统2.0(12)- 第十章 运行
查看>>
Python爬虫
查看>>
消息队列的理解总结
查看>>
LDA
查看>>
轻量级Mysql Sharding中间件——Shark
查看>>
python的列表与shell的数组
查看>>
移动国家号(MCC)
查看>>
关于TFS2010使用常见问题
查看>>
软件工程团队作业3
查看>>