HBase高表与宽表怎么选择-编程学习网

这篇文章主要讲解了“HBase高表与宽表怎么选择”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“HBase高表与宽表怎么选择”吧！

hbase中的宽表是指很多列较少行，即列多行少的表，一行中的数据量较大，行数少；高表是指很多行较少列，即行多列少，一行中的数据量较少，行数大。

hbase的row key是分布式的索引，也是分片的依据。
hbase的row key + column family + column qualifier + timestamp + value 是HFile中数据排列依据。HFile据此，对数据的索引到data block级别，而不是行级别。所以这种key是HFile内部的粗粒度（data block粒度）本地索引的主键。

据此，在HBase中使用宽表、高表的优劣总结如下：

查询性能：高表更好，因为查询条件都在row key中, 是全局分布式索引的一部分。高表一行中的数据较少。所以查询缓存BlockCache能缓存更多的行，以行数为单位的吞吐量会更高。
分片能力：高表分片粒度更细，各个分片的大小更均衡。因为高表一行的数据较少，宽表一行的数据较多。HBase按行来分片。
元数据开销：高表元数据开销更大。高表行多，row key多，可能造成region数量也多，- root -、 .meta表数据量更大。过大的元数据开销，可能引起HBase集群的不稳定、master更大的负担（这方面后续再好好总结）。
事务能力：宽表事务性更好。HBase对一行的写入（Put）是有事务原子性的，一行的所有列要么全部写入成功，要么全部没有写入。但是多行的更新之间没有事务性保证。
数据压缩比：如果我们对一行内的数据进行压缩，宽表能获得更高的压缩比。因为宽表中，一行的数据量较大，往往存在更多相似的二进制字节，有利于提高压缩比。通过压缩，缓解了宽表一行数据量太大，并导致分片大小不均匀的问题。查询时，我们根据row key找到压缩后的数据，进行解压缩。而且解压缩可以通过协处理器（coproesssor）在HBase服务器上做，而不是在业务应用的服务器上做，以充分应用HBase集群的CPU能力。

设计表时，可以不绝对追求高表、宽表，而是在两者之间做好**平衡**。根据查询模式，需要分布式索引、分片、**有很高选择度**（即能据此查询条件迅速锁定很小范围的一些行）的查询用字段，应该放入row key；能够均匀地划分数据字节数的字段，也应该放入row key，作为分片的依据。选择度较低，并且不需要作为分片依据的查询用字段，放入column family和column qualifier，不放入row key。

感谢各位的阅读，以上就是“HBase高表与宽表怎么选择”的内容了，经过本文的学习后，相信大家对HBase高表与宽表怎么选择这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是编程网，小编将为大家推送更多相关知识点的文章，欢迎关注！

文章详情

HBase高表与宽表怎么选择

软考中级精品资料免费领

相关文章

猜你喜欢

HBase高表与宽表怎么选择

分库分表与NewSQL怎么选择

jquery选择器怎么表示

CSS ID选择器怎么表示

CSS类选择器怎么表示

香港高宽带云服务器怎么选择

CSS伪类选择器怎么表示

CSS的类选择器怎么表示

广东服务器共享带宽与独享带宽怎么选择

HTML怎么定义表格的宽度和高度

CSS相邻兄弟选择器怎么表示

正则表达式的选择符怎么用

excel表格高级筛选怎么使用

sqlserver创建表时怎么选择数据类型

江苏高防服务器租用怎么选择带宽线路

HTML表单文件选择框样式怎么自定义

怎么在CSS选择器中使用正则表达式

Android中怎么使用Spinner实现一个列表选择框

正则表达式工具在线测试工具怎么选择

greenplum中怎么使用gpfdist与外部表高效导入数据