Io

通过广度优先搜索的方式总结了一下io方面需要实现的类（即vega还没有的）有些类应该是从Hadoop那边继承过来的，所以描述中只针对map-reduce任务。

HadoopRDD

HadoopRDD类是用于从Hadoop中读取数据的RDD，继承RDD类。在vega中的实现预计将采用简化版本，即只支持HDFS（或者应该改名叫HDFSRDD？）

它需要的变量有：

sc: SparkContext,
broadcastedConf: Broadcast[SerializableConfiguration],
initLocalJobConfFuncOpt: Option[JobConf => Unit],
inputFormatClass: Class[_ <: InputFormat[K, V]],
keyClass: Class[K],
valueClass: Class[V],
minPartitions: Int

依赖的其他类有： HadoopPartition，HadoopMapPartitionsWithSplitRDD（在HadoopRDD文件中实现） SparkHadoopUtil RecordReader

HadoopPartition

HadoopPartition是用来给Hadoop中文件分区的类，继承Partition。依赖InputSplit类。一个HadoopPartition对象就是一个分区。

Partition

是一个trait，里面包含该分区的index等。

InputSplit

是一个java实现的接口，用于将输入数据划分为多个逻辑片段，从而并行地在MapReduce程序中处理。一个InputSplit对象就是一个片段（应该吧）

Broadcast

一个抽象类。一个Broadcast对象可以将一个（通常是比较大的）只读数据集广播到所有机器上，让所有机器都缓存这一变量，而不是在执行任务时再通过网络复制。

JobConf

一个java类，继承Configuration。用来描述一个map-reduce job

Configuration

gpt说是一个java的类？

InputFormat

用来描述一个map-reduce job的输入格式。这个类在Spark中有很多子类，定义了一些常用的输入格式

SparkHadoopUtil

一些Spark和Hadoop交互的实用小方法。在Spark中有一系列这样的util，不同的是SparkHadoopUtil不在util路径下。

RecordReader

用来把数据弄成键值对，一般和InputFormat成对出现。