apache-hbase-medium-object-storage-mob-policies

HBASE-11339引入了Apache HBase介质对象存储(MOB)的功能。该功能可以提高中等尺寸值的低延迟读写访问(理想情况下,我们的测试结果是从100K到10MB),使尺寸值非常适合存储文档,图像和其他中等尺寸的对象[1]。Apache HBase MOB功能通过分离文件引用和MOB对象的IO路径来实现这一改进,将不同的压缩策略应用于MOB,从而降低HBase压缩创建的写入放大率。MOB对象存储在称作MOB区域的特殊区域中。

spark-hbase-dataframe-based-hbase-connector

Spark-HBase连接器利用Spark-1.2.0引入Data Source API(SPARK-3247)。它弥合了简单的HBase Key Value和复杂关联SQL查询之间的差距,使得用户可以在HBase上使用Spark执行复杂的数据分析。HBase DataFrame是一个标准的Spark DataFrame,它可以和任何其他数据源(例如Hive,ORC,Parquet,JSON等)进行交互。

openstack系列(11)-后记

【openstack-series】内容,本篇终章,我想说很多内容都没有涉及到,本系列就当做是公司需要做一个私有云平台的实现指导。没有很多深入剖析重要组件的内容,不过大家别着急,续集绝对有诚意的作品,[Openstack视频教程],什么时候更新,我是喜欢自由的人,时候到了,自然会通知到各位。

new_apache-spark-zeppelin-hdp-2-6_enterprise_data

任何数据值和它内部的派生值都是成正比的。因为[Data Lake Architecture](https://hortonworks.com/blog/enterprise-hadoop-journey-data-lake/),所有的企业数据提供在一个位置。从数据湖深入驱动的关键是Apache Spark & Apache Zeppelin。两者都是预测分析和机器学习的关键工具。HDP最进发布的版本为 Spark & Zeppelin 提供了几个关键的功能和改进,有助于预测分析和机器学习的进步。