跳到主要内容
开发谷
  • 编程题库
  • 更多
您正在用访客帐号访问
登录
编程题库
  1. 首页
  2. 编程题库
  3. 大数据开发技术
  4. 03- MapReduce作业

03- MapReduce作业

完成条件
打开: 2023年12月27日 星期三 00:00

1.简述MapReduce思想

2. 编写MR程序计算每个同学的成绩总和,按照下述要求输出

  • 输出结果样式

张三 语文:20,数学:30,英语:40,总分:90,平均分:30

  • 样本数据

语文成绩:

a|李一|88

a|王二|26

a|张三|99

数学成绩:

c|李一|83

c|王二|36

c|张三|92

英语:

b|李一|36

b|王二|66

b|张三|86

3. 在HDFS目录/tmp/input/wordcount目录中有一系列文件,内容为","号分隔,分隔后的元素均为数值类型、字母、中文,求数值类型、字母类型、中文类型各自的次数

4.在hdfs目录/tmp/table/student中存在student.txt文件,按tab分隔,字段名为(学号,姓名,课程号,班级名称),hdfs目录/tmp/table/student_location中存在student_location.txt文件,按tab分隔,字段名为(学号,省份,城市,区名),在Map任务中用student_location.txt文件中的学号过滤student.txt中的学号字段,输出student.txt中的存在交集的记录,输出结果结构按tab分隔后的四个字段为(学号,姓名,课程号,班级名称,省份,城市)。

5.(已排序好文本文件的分组-流式分组)给定一个本地文本文件finance_record_sorted.txt,共2个字段(工号,报销费用),其中按工号升序排列,并用tab分隔。求对该数据进行按工号字段的分组

6.序列化与反序列化的用途是什么

7.实现一个简单的自定义Writable

8.自定义Writable需要主要那些地方

9.编写程序对以下数据进行排序,基于第一列数据正序排序

125,5
137,9
172,11
254,22
145,42
155,24
137,11
145,3



◄ 02- HDFS作业题
Hadoop面试题 ►
您正在用访客帐号访问 (登录)
‎数据保留摘要‎
本网站基于Moodle
上海总部

Tel: 021-56778147

上海静安区共和新路2802号

智苑文创1号楼5层

昆山基地

Tel: 0512-50190290

昆山巴城学院路828号昆山

浦东软件园北楼4、5、8层

杰普软件园

Tel: 0512-57853816

昆山巴城迎宾路祖冲之路

杰普软件园

杰普产品官网

杰普微信订阅号

需要帮助联系我们

友情链接:   杰普官网  产品中心  了解我们   更多>>
Copyright©2023    昆山杰普软件科技有限公司     苏ICP备2020067766号-2