YarnshuffleOOM错误分析及解决是怎样的

Yarn shuffle OOM错误分析及解决是怎样的，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

为栖霞等地区用户提供了全套网页设计制作服务，及栖霞网站建设行业解决方案。主营业务为成都网站制作、网站设计、外贸网站建设、栖霞网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

最近集群中一些任务经常在reduce端跑出Shuffle OOM的错误，具体错误如下：

 2015-03-09 16:19:13,646 WARN [main] org.apache.hadoop.mapred.YarnChild: Exception running child : org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#14  
 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134)  
 at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:376)  
 at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:167)  
 at java.security.AccessController.doPrivileged(Native Method)  
 at javax.security.auth.Subject.doAs(Subject.java:396)  
 at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1550)  
 at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:162) Caused by: java.lang.OutOfMemoryError: Java heap space  
 at org.apache.hadoop.io.BoundedByteArrayOutputStream.(BoundedByteArrayOutputStream.java:56)  
 at org.apache.hadoop.io.BoundedByteArrayOutputStream.(BoundedByteArrayOutputStream.java:46)  
 at org.apache.hadoop.mapreduce.task.reduce.InMemoryMapOutput.(InMemoryMapOutput.java:63)  
 at org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl.unconditionalReserve(MergeManagerImpl.java:297)  
 at org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl.reserve(MergeManagerImpl.java:287)  
 at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyMapOutput(Fetcher.java:411)  
 at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyFromHost(Fetcher.java:341)  
 at org.apache.hadoop.mapreduce.task.reduce.Fetcher.run(Fetcher.java:165)

Yarn shuffle OOM错误分析及解决先看一下基本流程，map端进行处理后将结果放在map端local路径中，map端不断心跳汇报给MRAppMaster，在适当的阶段(另外可以写一个流程说明)，reduce启动，reduce发送心跳给MRAppMaster，获取已经结束的map task对象。之后对已经结束的map进程的数据进行拉取俗称Shuffle，拉取是通过Fetcher线程进行的，随后进行sort。有关的几个重要参数： Yarn shuffle OOM错误分析及解决是怎样的

public static final String SHUFFLE_INPUT_BUFFER_PERCENT = “mapreduce.reduce.shuffle.input.buffer.percent”; 默认0.7

public static final String SHUFFLE_MEMORY_LIMIT_PERCENT = “mapreduce.reduce.shuffle.memory.limit.percent”; 默认0.25

public static final String SHUFFLE_MERGE_PERCENT = “mapreduce.reduce.shuffle.merge.percent”; 默认0.66

这个问题是在Fetcher过程中爆出的。首先解释一下参数，第一个参数SHUFFLE_INPUT_BUFFER_PERCENT是指在总的HeapSize中shuffle占得内存百分比我们总的HeapSize是1.5G，那大概Fetcher就是1.0G。 SHUFFLE_MEMORY_LIMIT_PERCENT是指的map copy过来的数据是放内存中还是直接写磁盘。超过1.5G*0.7*0.25=250M的都放在磁盘中，其它开辟内存空间，放在内存中。

SHUFFLE_MERGE_PERCENT是指merge的百分比，超过这个百分比后停止fetcher，进行merge，merge到磁盘中。跑出OOM后，调了下jvm参数，获取heapdump数据，根据MAT获取以下数据。

数据如下：

Yarn shuffle OOM错误分析及解决Yarn shuffle OOM错误分析及解决首先发现整体的内存并没有到1.5G。其次，看了下内存对象分布，byte数组占了很大比例，这也很正常，所有内存中的buffer都是以byte数组形式出现的。在对比一下byte数组大小，大于900M，这就有一个问题了，首先整体HeapSize是1.5G，old区大概是1个G，这时候如果byte数组是900M来一个100M+的拷贝，由于是大内存开辟，不会进入Young区，直接开辟内存空间到Old区，而Old区即使fullgc也没有那么多连续空间，所以分配失败，报OOM错误。这时，只是一个假设，调整Xmn参数，减小Young区内存大小，增大Old区进行测试，成功，印证了想法。

但是对于我们跑任务调整jvm参数毕竟不现实，那么我们根据经验调整SHUFFLE_INPUT_BUFFER_PERCENT参数就可以了，调整为0.6即可解决问题。

关于Yarn shuffle OOM错误分析及解决是怎样的问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注创新互联行业资讯频道了解更多相关知识。

新闻标题：YarnshuffleOOM错误分析及解决是怎样的
链接分享：http://azwzsj.com/article/jicjoe.html

YarnshuffleOOM错误分析及解决是怎样的

其他资讯