Hadoop中TeraSort修改后输出翻倍异常怎么办

156次阅读

共计 1004 个字符，预计需要花费 3 分钟才能阅读完成。

丸趣 TV 小编给大家分享一下 Hadoop 中 TeraSort 修改后输出翻倍异常怎么办，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！

简而言之，就是在修改了TeraInputFormat.java 之后，运行 TeraSort 所得到的输出数据不同程度的翻倍，刚开始并没有什么头绪，并且把采样的线程和Map 的读入搞混了，逻辑不清晰，导致很多时间都在无关紧要的地方反复调试．

其实应该可以想到一种办法，就是在 MapTask 里设断点观察，但不知道是自己懒还是因为对隐藏在深处的MapTask 有一种畏惧心里，起初我并没有仔细进去看，后来在MapTask 里RecordReader 部分的 nextKeyValue() 方法里设置变量计数并输出，来观察每次 split 所获取的记录条数，结果发现，我的每个 split 都完整的获取了整个（注意是整个输入文件）而不是一个 split 大小的记录，所以输出也随着翻倍了．

那么关键点找出来了，问题出在哪里呢？MapTask 部分是Hadoop 默认绑定的，TeraSort 并没有重写，所以这部分不可能出错；TeraInputFormat 的前半部分是取样部分，问题不可能出在这里；后半部分的 RecordReader 的 initialize 部分和修改前基本无变化，那错误的部分一定是在 nextKeyValue() 部分了，于是一行一行分析，最终锁定了这一句：

newSize = in.readLine(record);

很普通的读取一行记录，那有没有可能是 readLine() 这个方法对长度没有限定呢？虽然 nextKeyValue() 方法是 split 对象调用的，但会不会 readLine() 并不理会你每个 split 块的大小而是一股气往下读取直到读到文件末尾呢？

为了验证这个可能，我添加了全局变量:

long recordLen;
// 将下面这句加在 nextKeyValue() 中
recordLen += newSize;

来记录读取记录的总长度,，并设定当

if(recordLen >= split.getLength){
 return false;
}

修改后打 jar 包放到节点上运行，结果正确！！！

看完了这篇文章，相信你对“Hadoop 中 TeraSort 修改后输出翻倍异常怎么办”有了一定的了解，如果想了解更多相关知识，欢迎关注丸趣 TV 行业资讯频道，感谢各位的阅读！

正文完

发表至：计算机运维

2023-08-25

转载说明：除特殊说明外本站除技术相关以外文章皆由网络搜集发布，转载请注明出处。

win11虚拟机位置在哪

win10上手需要做哪些准备

DOCKER怎样使用

nvidia控制面板分辨率没法默认设置怎么解决

oracle 11g rac如何修改VIP、scan VIP、priv IP