近期Hadoop实施心得与总结

Hadoop实施已经有快一个月了,对Hadoop(1.0.3)的概念理解、使用,Linux 与 Shell脚本,甚至对 Mysql 都有了更多的理解。

项目背景:用于互联网信息收集后的关键词匹配与内容提取。

主要系统架构分为互联网爬虫、分析、业务应用三块:

简单架构描述

 

由于我在当中的角色主要负责分析架构的搭建,所以其他两块都画得简单,下面也不会过多的描述。

Hadoop理解:提到Hadoop都想到的是云、分布式计算,在一段时间的实施之后有了一些具体的理解。

Hadoop的优势:

针对性能指标,当业务数据量总量或增速上升到一定级别,依靠关系型数据库一定无法支持。对于非关系型数据库,包括NoSQL和Solr一类存储方式,稍显复杂,对于机器集群性能要求偏高(相对于文件系统)。从数据使用模式上来讲,目前海量数据的常常是不包含复杂逻辑的简单统计整理(比如上述系统中的关键词匹配)。这时候文件系统的优势反而比较明显(结构简单,逻辑简单)。

如上述系统的应用场景是怎么样的呢,在一个强大的爬虫系统之下,每个小时的数据增量在G到10G的级别,需要搜索所有的文件,获取关键字的匹配,并且对匹配内容进行摘要。很类似我们windows里面的搜索功能,需要解决的就是如何在这样增幅的文件系统之下,如何满足业务系统的需求。

 

分析系统有什么要求呢?

○能够建立集群,分布式的保存数据文件内容(统一控制,可配置)。

  • 有一定的保护机制,保证数据或节点丢失不会影响系统使用。
  • 如果有一个任务脚本执行框架机制就好了(用于并行计算)。
  • 能够进行节点间的数据均衡。
  • 能够简单的查看所有的状态与日志(web客户端)

可能主要是这些了。若自己实现,确实是个复杂而庞大的工程,现在我们有了Hadoop。

系统物理架构

我们使用了一台服务器,利用虚拟化,安装了7套64x位的CentOS。一个Namenode,6个Datanode,复制数设置为3。每个系统分配到一个cpu,2G内存,Datanode挂载了500G的存储空间。

理想的Hadoop的搭建环境,参照《Best Practices for Selecting Apache Hadoop Hardware》一文,以及一些其他的文章。

CPU:最好是双CPU,8核左右。不用太高了。

内存:推荐48G,但是4G应该就可以运行Hadoop了。

硬盘:7200转的SATA硬盘即可,Hadoop很占空间,所以尽量加。

网络:内部的数据交换要求非常高,内网最好是千兆网卡,带宽为1GB。

理想与现实,有钱与没钱,呵呵。

系统软件架构

Hadoop:版本使用的是1.0.3,再下来就是2了,为了尽量简化应用,所以不考虑2的新特性。对Hadoop没有做太多的设置,基本基于默认。70为Namenode,71-76为Datanode。

JDK:1.6.0_33 (64x)

系统实施过程

HDFS部分:

爬虫抓取数据,整理后存放在50文件服务器,70以外部挂载的形式读取。网页文件比较小,假如直接写入Hadoop对Namenode负载过大,所以入库前合并,将每小时网页整合成为一个文件写入HDFS,由于区分类别,所以每小时基本写入10个文件左右,总量在5-8G,耗时在40-50分钟。(这个过程中,由于爬虫的IO过于频繁,导致文件读取困难,所以做了定时任务,每小时启动一次,将需要处理的文件先拷贝到临时区域,合并入库之后再删除。此处应该是受到单核cpu的限制,所有操作均是串行,包括拷贝(cp)和合并入库(java),所以Namenode严重建议配置稍高。)

此处没有太多问题。

MapReduce部分:

写入完成后,进行分析工作,MapReduce。此处的工作过程为:数据库定时生成关键词列表文件。Job执行时会读取列表文件,匹配指定范围内的 HDFS文件(过去一小时),匹配出对应的表达式与HTML,Map过程结束。在Reduce阶段,会将Map的所有数据入数据库(Mysql)。

此处出现过一些问题,记录下来。

1. Reduce阶段需要加载Mysql的第三方驱动包。我在三个环境测试过(公司、家里、发布环境),使用 -libjars 一定可以,有的地方不需要也可以。不明确,怀疑与HADOOP_HOME环境变量有关。

2. MR过程中使用log4j打印日志,在Hadoop临时目录(如果你没有配置 dfs.name.dir,dfs.data.dir,mapred.local.dir.mapred.system.dir等目录,这些都会在 hadoop.tmp.dir当中,我就偷懒都没配置)mapred文件夹中查看一下。

整个过程实际上还是比较简单的,基本编码量就在Job的部分,但是一个Java文件就够了。在目前初级阶段应该还是比较好用的。现在还没有测试Job的执行效率。完成后会继续记录下来。有什么问题可以尽量提出。我会继续关注。

原文链接:http://blog.jobbole.com/25060/

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/283812.html<

(0)
运维的头像运维
上一篇2025-05-14 02:40
下一篇 2025-05-14 02:41

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注