开源第一弹:什么是HBASE?

[[130262]]

在数据研究人员的工具集上有着大量的工具可以使用,这对于大数据技术,既是一件好事也是一件坏事。

当我们谈论从事大数据工作所使用的工具时,绝大部分讨论的会是Hadoop,Apache基金会关于Map Reduce和分布式存储系统的实现(HDFS是由Doug Cutting 阅读相关论文后在其供职于Yahoo时(他目前在Cloudera)建立的。但大数据工具很少单独工作,它是一个工具和数据库,以帮助数据研究人员能够更有效地分析他们的集合(或只是有利于加快速度)。

其中一项技术就是HBase。HBase的是一个非关系(NoSQL的)数据库,是Google BigTable的Java实现。它是柱状数据库中的一种。相对于关系数据库基于行存储数据,HBASE基于列存储。

不过这说起来容易,但其究竟是什么意思。让我们从对谷歌关于BigTable的相关文档的研究开始:

“Bigtable是一个具有稀疏性,分布性,持续性的多维有序映射。”

让我们深入其中,看看到底是什么意思。

稀疏

直觉上认为数据库稀疏的定义是数据库具有较少的数据项,但实际上,稀疏的意义是指数据库中数据项的数据列缺乏足够的数据。对于HBASE,之所以说它具有稀疏性,是因为它可以在其实体中容纳稀疏性数据。而对于关系表,将要求您填写的所有字段(或大部分)(想想你的关系数据库中客户资料表)。柱状数据库可以为空或NULL且不影响数据库的功能。此外,这也给你带来了其他好处,使你能够快速的添加其它你想捕捉的数据。在关系数据库中,创建一个架构(FirstName,LastName,SS#,TelephoneNumber),并希望在创建时已经得到所有你需要捕获的数据。NoSQL数据库无需设计过于复杂的架构,允许您根据需要在不中断业务正常流动时添加字段。

分布式和持久化

HBase的使用HDFS(Hadoop分布式文件系统),以实现在多个商用服务器分发数据。这是Hadoop和HBase能够处理海量数据工作的基础。它基于另一篇关于谷歌文件系统的文章(点击阅读),google文件系统是Doug Cutting 建立HDFS的基础。我们将在另一篇文章中详细讨论HDFS和DFS。

多维排序Map

一个Map(有时被称为关联数组)其中存储的键值索引不必是整数,可以是任意的字符串。其实质是键值对集合,且要求键具有惟一性。其中键按照字典序排列。(需要注意的是:此处的字典序不是按字母顺序排列,也不是按数字顺序,而是按字符串的Unicode值进行排序)

你的得与失

使用HBase可以让你对存储在Hbase的数据进行预处理和后处理操作,并给予你更大的灵活性和快速处理数十亿行数据的能力。不利的一面是,当您使用 HDFS的替代HBase,使用像Hive(类SQL数据检索)那样的工具会比在普通的HDFS慢4-5倍。此外,可以容纳数据的***容量约为1 PB而不是HDFS中的30PB。

原文链接:www.searchdatabase.com.cn/showcontent_88365.htm

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/295057.html<

(0)
运维的头像运维
上一篇2025-05-21 09:03
下一篇 2025-05-21 09:05

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注