new_apache-spark-zeppelin-hdp-2-6_enterprise_data

任何数据值和它内部的派生值都是成正比的。因为[Data Lake Architecture](https://hortonworks.com/blog/enterprise-hadoop-journey-data-lake/),所有的企业数据提供在一个位置。从数据湖深入驱动的关键是Apache Spark & Apache Zeppelin。两者都是预测分析和机器学习的关键工具。HDP最进发布的版本为 Spark & Zeppelin 提供了几个关键的功能和改进,有助于预测分析和机器学习的进步。

比较Apache Hadoop 生态系统中不同的文件格式和存储引擎的性能

这篇文章提出了在Apache Hadoop 生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能:Apache Avro, Apache Parquet, Apache HBase 和 Apache Kudu 空间效率, 提取性能, 分析扫描以及随机数据查找等领域。这有助于理解它们中的每一个如何(何时)改善你的大数据工作负载的处理能力。