浅谈大数据之Hadoop部署前的思考

Hadoop的应用前提是”数据是有价值的!”,当然,这一点已经得到了几乎所有人的认可,并且在实际环境中,也都是这样在做的,我们都希望从系统日志,网络数据,社交信息等海量数据中发掘出有价值的信息,比如,用户的行为,习惯等,而这些是做下一步市场营销的有效决策依据。在Hadoop出现后,对于数据的发掘更是体现的***,尤其是从知名的互联网公司开始,都已经在使用或部署Hadoop环境。

面对如此诱惑,很多传统的企业用户都想参考互联网企业的做法,非常快速的部署Hadoop,从而快速整合和发掘既有数据的价值。但现实情况却正应了”理想很丰满,现实太骨感“那句网络流行语,想快速部署Hadoop,却没那么容易。为什么会出现这样的问题呢,我想到的原因大概有几点:

1. Hadoop提供给我们的只是一个框架,而不是一套完整的解决方案。

就像购买一套房子,建筑商交付的永远那都是一个基础结构,整体装修部分还是要靠户主自己按照自己的风格和喜好进行设计和实施,而且,每个户主对于装修部分都会有自己的定义。Hadoop的部署恰是如此,每个企业中的Hadoop环境都可以说是唯一的,需要企业用户对自己的数据环境有一个非常好的梳理和认知。我需要分析哪些数据?需要得到什么样的信息?这些信息我用来做什么?只有想明白这些问题后,Hadoop部署才会体现出它的价值。而这些,不仅仅是技术层面的问题,还要有管理层的认知甚至是业务层面的配合。

2. 人力上的问题。

Hadoop属于开源架构,而开源有它先天不足或无法解决的问题,例如,由于场景的的唯一性导致的开源架构下的开发和维护问题。Hadoop同样会面对这样的问题,而且,市场上当前Hadoop方面的人才相对比较少,这些对于企业而言,都会增加不少部署和应用上的难度。大量的开发工作需要大量的开发人员,个体的稀缺性又加重了开发方面的成本和难度。

3. 只有适合分布式架构解决的问题才可以由Hadoop解决。

Hadoop不是”仙丹”,不能解决一切数据分析问题。面向结构化的数据查询和分析,传统数据库结构还有它特有的优势。Hadoop是一个分布式架构,而分布式架构决定了其”只有适合分布式架构解决的问题才可以由Hadoop解决”。例如,一个孕妇,需要10月怀胎才会有一个baby,而不是通过10个孕妇在1个月内拥有一个baby。说到底,只有问题可以被拆分成若干子问题,且子问题是独立的,也就是可以适用用“key-value”的迭代方式进行处理,最终可以推导出我们需要的结果。这样的问题才是Haodop可以去解决的问题。

4. Hadoop不适合处理小文件。

其实大和小只是一个相对的概念,不存在绝对值的对比,之所以说Hadoop不适合处理小文件是由HDFS中的namenode局限性决定的,每个文件都会在namenode中保存相应的元数据信息,为了提升效率,这些信息在使用的过程中都是被保存在内存中的,如果小文件很多,则会消耗大量的namenode节点的内存,而对于单节点来讲,内存的扩展是有其上限的。反之,如果是相对较大,例如上GB或更大的文件,相对消耗的内存则会比较少。同时,在数据处理的过程中,系统开销的占比会小很多。这些架构上的特点和限制,决定了Hadoop更适合于处理“大”数据。当然在技术实现上来看,杀鸡用牛刀也是可以的,就看值不值得而已。

原文链接:http://www.36dsj.com/archives/10382

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/241717.html<

(0)
运维的头像运维
上一篇2025-04-24 11:23
下一篇 2025-04-24 11:24

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注