7-6
今日Vega项目继续保持高速推进。
HDFS方面: 推翻了原有的hdfs_file_reader和HdfsIO,另起炉灶写了Hdfs_read_rdd,解决了从Hdfs读文件的问题。 HdfsIO被修改成了进行Hdfs读写的顶层模块,通过调用其中的读取和写入方法对Hdfs进行读取/写入。HdfsIO会用到和返回HdfsReadRdd。
RDD方面: 修改了iterator()的代码,希望通过减少clone来提高性能,但是成效不明显,不能拒绝没有优化的原假设。此外还分析了RDD在提交与执行任务时各阶段的开销
容错方面: 推翻了原有的task::failed的机制,另起炉灶修改了submit_task函数的运行机制,并通过在executor下线时,把任务直接分配给其他executors的方法,完成了容错。
Shuffle方面: 修复了原有优化的BUG,并对优化前后性能进行了初步测试
继续修改docker部署文件配置。
性能监控方面: 在vega中加入信息输出模块。grafana的dashboard完善监控内容。