解析Hadoop 的集群管理与安全机制

HDFS数据管理

1、设置元数据与数据的存储路径,通过

dfs.name.dir,dfs.data.dir,fs.checkpoint.dir(hadoop1.x)、

hadoop.tmp.dir,dfs.namenode.name.dir,dfs.namenode.edits.dir,dfs.datanode.data.dir(hadoop2.x)等属性来设置;

2、经常执行HDFS文件系统检查工具FSCK,eg:hdfs fsck /liguodong -files -blocks;

 

  1. [root@slave1 mapreduce]# hdfs fsck /input 
  2. Connecting to namenode via http://slave1:50070 
  3. FSCK started by root (auth:SIMPLE) from /172.23.253.22 for path /input at Tue Jun 16 21:29:21 CST 2015 
  4. .Status: HEALTHY 
  5.  Total size:    80 B 
  6.  Total dirs:    0 
  7.  Total files:   1 
  8.  Total symlinks:                0 
  9.  Total blocks (validated):      1 (avg. block size 80 B) 
  10.  Minimally replicated blocks:   1 (100.0 %) 
  11.  Over-replicated blocks:        0 (0.0 %) 
  12.  Under-replicated blocks:       0 (0.0 %) 
  13.  Mis-replicated blocks:         0 (0.0 %) 
  14.  Default replication factor:    1 
  15.  Average block replication:     1.0 
  16.  Corrupt blocks:                0 
  17.  Missing replicas:              0 (0.0 %) 
  18.  Number of data-nodes:          1 
  19.  Number of racks:               1 
  20. FSCK ended at Tue Jun 16 21:29:21 CST 2015 in 1 milliseconds 
  21.  
  22. The filesystem under path '/input' is HEALTHY 

 

3、一旦数据发生异常,可以设置NameNode为安全模式,这时NameNode为只读模式;

操作命令:hdfs dfsadmin -safemode enter | leave | get | wait

 

  1. [root@slave1 mapreduce]# hdfs dfsadmin -report 
  2. Configured Capacity: 52844687360 (49.22 GB) 
  3. Present Capacity: 45767090176 (42.62 GB) 
  4. DFS Remaining: 45766246400 (42.62 GB) 
  5. DFS Used: 843776 (824 KB) 
  6. DFS Used%: 0.00
  7. Under replicated blocks: 0 
  8. Blocks with corrupt replicas: 0 
  9. Missing blocks: 0 
  10.  
  11. ------------------------------------------------- 
  12. Datanodes available: 1 (1 total, 0 dead) 
  13.  
  14. Live datanodes: 
  15. Name: 172.23.253.22:50010 (slave1) 
  16. Hostname: slave1 
  17. Decommission Status : Normal 
  18. Configured Capacity: 52844687360 (49.22 GB) 
  19. DFS Used: 843776 (824 KB) 
  20. Non DFS Used: 7077597184 (6.59 GB) 
  21. DFS Remaining: 45766246400 (42.62 GB) 
  22. DFS Used%: 0.00
  23. DFS Remaining%: 86.61
  24. Last contact: Tue Jun 16 21:27:17 CST 2015 
  25.  
  26. [root@slave1 mapreduce]# hdfs dfsadmin -safemode get 
  27. Safe mode is OFF 

 

4、每一个DataNode都会运行一个数据扫描线程,它可以检测并通过修复命令来修复坏块或丢失的数据块,通过属性设置扫描周期;

dfs.datanode.scan.period.hourses, 默认是504小时。

MapReduce作业管理

查看Job信息:mapred job -list;

杀死Job:mapred job -kill;

查看指定路径下的历史日志汇总:mapred job -history output-dir;

打印map和reduce完成的百分比和所有计数器:mapred job -status job_id;

 

  1. [root@slave1 mapreduce]# mapred job 
  2. Usage: CLI <command> <args> 
  3.         [-submit <job-file>] 
  4.         [-status <job-id>] 
  5.         [-counter <job-id> <group-name> <counter-name>] 
  6.         [-kill <job-id>] 
  7.         [-set-priority <job-id> <priority>]. Valid values for priorities are: VERY_HIGH HIGH NORMAL LOW VERY_LOW 
  8.         [-events <job-id> <from-event-#> <#-of-events>] 
  9.         [-history <jobHistoryFile>] 
  10.         [-list [all]] 
  11.         [-list-active-trackers] 
  12.         [-list-blacklisted-trackers] 
  13.         [-list-attempt-ids <job-id> <task-type> <task-state>]. Valid values for <task-type> are REDUCE MAP. Valid values for <task-state> are running, completed 
  14.         [-kill-task <task-attempt-id>] 
  15.         [-fail-task <task-attempt-id>] 
  16.         [-logs <job-id> <task-attempt-id>] 
  17.  
  18. Generic options supported are 
  19. -conf <configuration file>     specify an application configuration file 
  20. -D <property=value>            use value for given property 
  21. -fs <local|namenode:port>      specify a namenode 
  22. -jt <local|jobtracker:port>    specify a job tracker 
  23. -files <comma separated list of files>    specify comma separated files to be copied to the map reduce cluster 
  24. -libjars <comma separated list of jars>    specify comma separated jar files to include in the classpath. 
  25. -archives <comma separated list of archives>    specify comma separated archives to be unarchived on the compute machines. 
  26.  
  27.  
  28. [root@slave1 mapreduce]# mapred job -list 
  29. 15/06/16 21:33:25 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 
  30. Total jobs:0 
  31. JobId  State  StartTime  UserName  Queue  Priority  UsedContainers  RsvdContainers  UsedMem RsvdMem    NeededMem    AM info 

 

#p#

Hadoop集群安全

Hadoop自带两种安全机制:Simple机制、Kerberos机制

1、Simple机制:

Simple机制是JAAS协议与delegation token结合的一种机制,JAAS(Java Authentication and Authorization Service)java认证与授权服务;

(1)用户提交作业时,JobTracker端要进行身份核实,先是验证到底是不是这个人,即通过检查执行当前代码的人与JobConf中的user.name中的用户是否一致;

(2)然后检查ACL(Access Control List)配置文件(由管理员配置)看你是否有提交作业的权限。一旦你通过验证,会获取HDFS或者mapreduce授予的delegation token(访问不同模块有不同的delegation token),之后的任何操作,比如访问文件,均要检查该token是否存在,且使用者跟之前注册使用该token的人是否一致。

2、Kerberos机制:

Kerberos机制是基于认证服务器的一种方式;

 

Princal(安全个体):被认证的个体,有一个名字和口令;

KDC(key distribution center):是一个网络服务,提供ticket和临时会话密钥;

Ticket:一个记录,客户用它来向服务器证明自己的身份,包括客户标识、会话密钥、时间戳;

AS(Authentication Server):认证服务器;

TSG(Ticket Granting Server):许可认证服务器;

 

[[137086]]

(1)Client将之前获得TGT和要请求的服务信息(服务名等)发送给KDC,

KDC中的Ticket Granting Service将为Client和Service之间生成一个Session Key用于Service对Client的身份鉴别。

然后KDC将这个Session Key和用户名,用户地址(IP),服务名,有效期, 时间戳一起包装成一个Ticket(这些信息最终用于Service对Client的身份鉴别)发送给Service,

不过Kerberos协议并没有直接将Ticket发送给Service,而是通过Client转发给Service,所以有了第二步。

(2)此时KDC将刚才的Ticket转发给Client。

由于这个Ticket是要给Service的,不能让Client看到,所以KDC用协议开始前KDC与Service之间的密钥将Ticket加密后再发送给Client。

同时为了让Client和Service之间共享那个密钥(KDC在***步为它们创建的Session Key),

KDC用Client与它之间的密钥将Session Key加密随加密的Ticket一起返回给Client。

(3)为了完成Ticket的传递,Client将刚才收到的Ticket转发到Service。

由于Client不知道KDC与Service之间的密钥,所以它无法算改Ticket中的信息。

同时Client将收到的Session Key解密出来,然后将自己的用户名,用户地址(IP)打包成Authenticator用Session Key加密也发送给Service。

(4)Service 收到Ticket后利用它与KDC之间的密钥将Ticket中的信息解密出来,从而获得Session Key和用户名,用户地址(IP),服务名,有效期。

然后再用Session Key将Authenticator解密从而获得用户名,用户地址(IP)将其与之前Ticket中解密出来的用户名,用户地址(IP)做比较从而验证Client的身份。

(5)如果Service有返回结果,将其返回给Client。

#p#

Hadoop集群内部使用Kerberos进行认证

 

[[137087]]

好处:

可靠:Hadoop本身并没有认证功能和创建用户组功能,使用依靠外围的认证系统;

高效:Kerberos使用对称钥匙操作,比SSL的公共密钥快;

操作简单:用户可以方便进行操作,不需要很复杂的指令。比如废除一个用户只需要从Kerbores的KDC数据库中删除即可。

HDFS安全

1、Client获取namenode初始访问认证(使用kerberos)后,会获取一个delegation token,这个token可以作为接下来访问HDFS或提交作业的凭证;

2、同样为了读取某个文件,Client首先要与namenode交互,获取对应block的block access token,

然后到相应的datanode上读取各个block ,

而datanode在初始启动向namenode注册时候,已经提前获取了这些token,

当client要从TaskTracker上读取block时,首先验证token,通过才允许读取。

MapReduce安全

1、所有关于作业的提交或者作业运行状态的追踪均是采用带有Kerberos认证的RPC实现的。

授权用户提交作业时,JobTracker会为之生成一个delegation token,该token将被作为job的一部分存储到HDFS上并通过RPC分发给各个TaskTracker,一旦job运行结束,该token失效。

2、用户提交作业的每个task均是以用户身份启动的,这样一个用户的task便不可以向TaskTracker或者其他用户的task发送操作系统信号,给其他用户造成干扰。这要求为每个用户在所有的TaskTracker上建一个账号;

3、当一个map task运行结束时,它要将计算结果告诉管理它的TaskTracker,之后每个reduce task会通过HTTP向该TaskTracker请求自己要处理的那块数据,Hadoop应该确保其他用户不可以获取map task的中间结果,

其执行过程是:reduce task对“请求URL”和“当前时间”计算HMAC-SHA1值,并将该值作为请求的一部分发动给TaskTracker,TaskTracker收到后会验证该值的正确性。

博文出处:http://blog.csdn.net/scgaliguodong123_/article/details/46523569

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/133298.html<

(0)
运维的头像运维
上一篇2025-02-27 10:15
下一篇 2025-02-27 10:17

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注