03- MapReduce作业
完成条件
打开: 2023年12月27日 星期三 00:00
1.简述MapReduce思想
2. 编写MR程序计算每个同学的成绩总和,按照下述要求输出
输出结果样式
张三 语文:20,数学:30,英语:40,总分:90,平均分:30
样本数据
语文成绩:
a|李一|88
a|王二|26
a|张三|99
数学成绩:
c|李一|83
c|王二|36
c|张三|92
英语:
b|李一|36
b|王二|66
b|张三|86
3. 在HDFS目录/tmp/input/wordcount目录中有一系列文件,内容为","号分隔,分隔后的元素均为数值类型、字母、中文,求数值类型、字母类型、中文类型各自的次数
4.在hdfs目录/tmp/table/student中存在student.txt文件,按tab分隔,字段名为(学号,姓名,课程号,班级名称),hdfs目录/tmp/table/student_location中存在student_location.txt文件,按tab分隔,字段名为(学号,省份,城市,区名),在Map任务中用student_location.txt文件中的学号过滤student.txt中的学号字段,输出student.txt中的存在交集的记录,输出结果结构按tab分隔后的四个字段为(学号,姓名,课程号,班级名称,省份,城市)。
5.(已排序好文本文件的分组-流式分组)给定一个本地文本文件finance_record_sorted.txt,共2个字段(工号,报销费用),其中按工号升序排列,并用tab分隔。求对该数据进行按工号字段的分组
6.序列化与反序列化的用途是什么
7.实现一个简单的自定义Writable
8.自定义Writable需要主要那些地方
9.编写程序对以下数据进行排序,基于第一列数据正序排序
125,5
137,9
172,11
254,22
145,42
155,24
137,11
145,3