大数据开发技术: 6.5 故障排除

NameNode故障处理

NameNode进程挂了并且存储的数据也丢失了，如何恢复NameNode，前提集群在搭建过程配置过SecondNameNode.

kill -9 1715

rm -r /home/briup/software/data/hadoop/hdfs/nn/*

hadoop-daemon.sh  start namenode

scp -r briup@192.168.174.137:/home/briup/software/data/hadoop/hdfs/nn/* /home/briup/software/data/hadoop/hdfs/nn/

hadoop-daemon.sh  start namenode

基于SecondNameNode恢复主节点元数据，可能导致其中某个时间段写入集群的数据出现缺失
数据损坏

rm -r blk_1073741827  blk_1073741827_1003.meta

stop-dfs.sh
4.启动Hdfs集群
start-dfs.sh
5.查看master和slave节点的数据块，会发现删除的数据块集群会基于现有数据块恢复

如果其中数据块不是缺失而是损毁，解决方案为删除存在问题的数据块或者从其他节点同步复制该数据块到本机

最后修改: 2023年12月28日星期四 17:18

6.5 故障排除