MapReduce应该如何应用开发
MapReduce应该如何应用开发,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
10年积累的网站设计制作、成都网站设计经验,可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你,你也不认识我。但先网站制作后付款的网站建设流程,更有辰溪免费网站建设让你可以放心的选择与我们合作。
用于配置的API
Configuration org.apache.hadoop.conf
配置开发环境
不同环境使用不同的配置文件,跟web开发类同
HADOOP_USER_NAME 设置hadoop 用户名
HADOOP_CONF_DIR 配置信息环境变量
辅助类 Configured Tool ToolRunner
用MRUnit 来写单元测试
本地运行测试数据
在本地作业运行器上运行作业
测试驱动程序
使用本地作业运行器
使用一个mini集群来运行它
在集群上运行
打包作业
分布式环境打包成JAR 文件
启动作业
作业调试
通过打印语句
计数器 可以衡量问题的严重程度
日志
远程调试
作业调优
mapper 的数量
reducer 的数量
combiner
中间值的压缩
自定义序列
调整 shuffle
MapReduce 的工作流
通常是增加更多的作业,而不是增加作业的复杂度
对于更复杂的问题,可考虑使用Pig, hive, Cascading, Crunch 或Spark
JobControl
Apache Oozie 是一个运行工作流的系统,该工作流由相互依赖的作业组成
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注创新互联行业资讯频道,感谢您对创新互联的支持。
分享名称:MapReduce应该如何应用开发
文章起源:http://azwzsj.com/article/pojhjd.html