- 时间:2022-10-25 23:42 编辑: 来源: 阅读:286
- 扫一扫,手机访问
摘要:关于Hadoop和SQL的详细信息
{php源码}
起初,Apache Hadoop被视为非结构化数据批量解决方案的平台。 本质上,Hadoop是一种廉价可靠的存储和解决大量数据的方式,吸引了更多的用户。 随着时间的推移,数据引力的影响增加了Hadoop对SQL的需求。 最初的目标是找到一种用SQL支持Hadoop数据的方法,但现在越来越多的需求是使用Tableau这样的工具将业务用户与数据联系起来。 方法Hadoop解决方案上有很多开源SQL,包括Hive(LLAP)、Impala、SparkSQL和Presto。 这些产品大部分都比较年轻,还是有很大提升的。 这些解决方案最大的优点是从头开始编写,用于在Hadoop中分析数据。 人们常说,好的软件需要10年的开发时间,SQL产品不包括在内,尤其是在查询优化方面。虽然Hadoop本身已经有10年的历史,但是Hadoop产品上的SQL大多还太年轻。 这也是为什么很多专有数据库产品都是建立在巨人肩膀上的原因。 例如,Greenplum、Netezza、ParAccel、Redshift和Vertica都包含在从PostgreSQL派生的产品列表中。 专有处理方案在Hadoop中,有一个特殊的方法,用SQL查询数据。 其中一些允许用户运行TDWI并使用“Hadoop之外的SQL”,这需要Hadoop集群和单独的SQL引擎平台。 在不同平台之间移动数据需要额外的成本,但有些人可能认为将SQL工作负载从Hadoop集群中分离出来会带来好处,所以额外的成本是值得的。 基准测试基准测试可以作为判断备选SQL在Hadoop选项上的可行性和可行性的基点。 包括以下几点:1 .AtScale:这是AtScale的第二次Hadoop上的SQL测试。很明显他们测试的开源产品有了很大的改进,更符合用户对新产品的期待。另一个发现是,产品对于不同的查询有优点和缺点,这表明这不是适合所有市场的产品。 此外,该基准使用相对较小的TPC-H查询集,而这里列出的其余基准使用升级后的更全面的TPC-DS查询集。 2.Comcast对TPC-DS查询进行了基准测试,并在Hadoop产品上比较了不同的SQL。 这也是比较不同文件格式的唯一基准。 3.Kognito TPC-DS query设置了一个基准,包括所有的TPC-DS查询和并发测试。 关于基准操作模式和每个查询的结果 基准测试过程中有几个共性:1。开源产品在功能和可访问性方面得到了显著的改进。 2.很多开源产品是不成熟的,这意味着它们不能运行所有的TPC-DS查询集,因为它们不支持所需的语法,否则会产生运行时错误。 3.一些产品(尤其是SparkSQL和Presto)需要调整并发性。 4.Hive本身就很慢(康卡斯特特别强调) Hivelap是一项重大改进,尽管AtScale仍将其排在Presto和Impala之后。 而不是“一刀切”,只是在Hadoop集群上使用SQL on Hadoop处理方法,寻找合适的工具来工作。 如果您已经拥有ELT和其他批处理解决方案的Hive,但无法满足将Hadoop中的数据连接到业务和用户社区的需求,那么您可以在Hadoop上使用不同的SQL处理方案来完成这项任务,并保持当前的Hive工作负载不变。