hadoop中mapreduce实例,在hadoop项目结构中,mapreduce指的是什么
导入大数据目录下和解放运动目录下的冲突包
一编写制图人类
制图人抽象类是一个泛型,有四个形式的参数类型,分别指定地图函数的输入键,输入值,输出键,输出值。就上面的示例来说,输入键没有用到(实际代表行在文本中格的位置,没有这方面的需要,所以忽略),输入值是一样文本,输出键为单词,输出值代表单词出现的次数。
大数据规定了自己的一套可用于网络序列优化的基本类型,而不是使用内置的爪哇岛类型,这些都在org.apache.hadoop.io包中定义,上面使用的文本类型相当于爪哇岛的线类型,IntWritable类型相当于爪哇岛的整数类型。
公共类单词计数映射器扩展映射器对象,Text,Text,IntWritable {
//-
private final static int writable one=new int writable(1);//初始字数为一
私有文本word=new Text();//word
//-
公共空映射(对象键、文本值、上下文上下文)
引发IOException,InterruptedException {
字符串标记器itr=新的字符串标记器(值。tostring());
while (itr.hasMoreTokens()) {
词。设置(itr。nexttoken());
context.write(word,one);
} //结束时间
} //结束映射()
} //结束类单词计数映射器
2编写减少类
还原剂抽象类的四个形式参数类型指定了减少函数的输入和输出类型。在本例子中,输入键是单词,输入值是单词出现的次数,将单词出现的次数进行叠加,输出单词和单词总数。
包cn。com。yz。MapReduce
导入Java。io。io异常;
导入org。阿帕奇。Hadoop。io。int可写;
导入org。阿帕奇。Hadoop。io。文本;
导入org。阿帕奇。Hadoop。MapReduce。减速器;
公共类WordCountReducer扩展
缩减器文本,IntWritable,文本,IntWritable {
//-
private int writable result=new int writable();
//-
公共空隙减少(文本键、可迭代IntWritable值、上下文上下文)
引发IOException,InterruptedException {
int sum=0;
for (IntWritable val : values) {
总和=价值。get();
}//结束于
结果集(总和);
context.write(key,result);
} //end reduce()
}//结束类WordCountReducer
3编写主要的方法
包cn。com。yz。MapReduce
导入org。阿帕奇。Hadoop。糖膏剂配置;
导入org。阿帕奇。Hadoop。fs。路径;
导入org。阿帕奇。Hadoop。io。int可写;
导入org。阿帕奇。Hadoop。io。文本;
导入org。阿帕奇。Hadoop。MapReduce。工作;
导入org。阿帕奇。Hadoop。MapReduce。lib。输入。文件输入格式;
导入组织。阿帕奇。Hadoop。MapReduce。lib。输出。文件输出格式;
导入org。阿帕奇。Hadoop。util。通用选项更稀疏;
公共类字数{
公共静态void main(String[] args)引发异常{
配置配置=新配置();
string[]other Args=新的通用选项稀疏器(conf,Args)。getremainingrs();
if (otherArgs.length!=2) {
System.err.println(用法:输入输出字数
系统。出口(2);
}//结束如果
//设置作业
Job job=新作业(conf,字数);
工作。setjarbyclass(字数。类);
工作。setmapper类(字数映射器。类);
工作。setcombinerclass(字数减少器。类);
工作。setreducerclass(字数减少器。类);
工作。setoutputkey类(文本。类);
工作。setoutputvalueclass(int可写。类);
//设置输入和输出路径
文件输入格式。addinputpath(job,new Path(other args[0]);
文件输出格式。setoutputpath(job,new Path(other args[1]);
//提交作业并等待完成
系统。退出(作业。等待完成(真)?0 : 1);
}//end main()
} //结束类字数
大数据的复杂在于工作的配置有着复杂的属性参数,如文件分割策略、排序策略、地图输出内存缓冲区的大小、工作线程数量等,深入理解掌握这些参数才能使自己的数据处理程序在集群环境中运行的最优。