阿帕奇箭旨在加快分析工作量

Arrow旨在用作大数据处理和存储系统的通用数据表示形式,从而允许数据在系统和进程之间共享,而不会因序列化,反序列化或内存复制而导致CPU开销。

箭靶心
Thinkstock

13个主要开源项目的主要开发人员,以及7个项目管理委员会(PMC)的主席 Apache软件基金会 个项目,今天聚集在一起,宣布了一个新的顶级Apache项目,该项目有望大大提高分析工作负载的性能。

虽然大多数Apache的新工作花了数年的时间才能成为Apache Incubator项目的正式开发项目,但新的工作 阿帕奇箭 从一开始就作为顶级项目运行。

[相关: Apache Hadoop进入10岁 ]

“这是因为参与其中的人,”初创公司的首席技术官雅克·纳多(Jacques Nadeau)说 德雷米奥 (仍处于隐身状态),Apache Drill项目的副总裁,现在是Apache Arrow的副总裁。 “由于其背后的支持以及与之相关的人员,我将其视为建立下一阶段异构数据基础架构的机会。”

他补充说:“我们希望在几年之内,世界上大部分时间都将通过Arrow来实现。”

箭的根源

Arrow最初由Apache Drill的代码播种,Apache Drill是用于大型数据集的无模式SQL查询引擎,它是用于列内存分析的高性能跨系统数据层。 Nadeau表示,它将通过提供通用的内部数据表示,将大数据处理系统和大数据存储系统的速度提高10倍至100倍。

在许多工作负载中,当数据在各自具有自己的自定义数据表示形式的系统和进程之间移动时,花费70%至80%的CPU周期来序列化和反序列化数据。使用Arrow作为通用表示,可以在系统和进程之间共享数据,而无需序列化,反序列化或内存复制。

[相关: Pentaho添加了本机Python集成 ]

“ Apache孵化器和Apache Arrow PMC的副总裁Ted Dunning说:“行业标准的列式内存数据层使用户可以在一个工作负载中组合多个系统,应用程序和编程语言,而没有通常的开销。

箭的受欢迎程度背后

这就是为什么Arrow从一开始就获得如此广泛支持的原因,而不仅仅是某些最著名和重要的Apache提交者和PMC的支持-包括来自Calcite,Cassandra,Drill,Hadoop,HBase,Impala,Kudu等项目的开发人员,Parquet,Phoenix,Spark,Storm,Pandas和Ibis-包括Cloudera,Databricks,Datastax,Dremio,Hortonworks,MapR,Salesforce和Twitter在内的供应商。作为SQL执行引擎,数据分析系统,流和排队系统以及存储系统的共享基础,Nadeau表示,艾睿电子将为这些领域的各种项目提供更快的性能和互操作性。

“ Apache柱状内存数据层使系统和应用程序能够以完全的硬件速度处理数据,” Apache Kudu的原始创建者和Apache Arrow PMC的Todd Lipcon说。 “现代CPU旨在通过矢量化操作和SIMD指令来利用数据级并行性。Arrow促进了这种处理。”

除了传统的关系数据,Arrow还支持复杂的数据和动态模式。它可以处理物联网(IoT)工作负载,现代应用程序和日志文件中常用的JSON数据,并且已经可以(或正在进行)用于Java,C ++和Python等编程语言的实现。 Nadeau表示R和JavaScript的实现应该在今年年底之前完成,而Drill,Ibis,Impala,Kudu,Parquet和Spark都将在今年年底之前采用Arrow。预计其他项目也将在该时间范围内采用Arrow。

Parth Chandra,Apache Drill PMC和Apache Arrow PMC说:“现实中的用例通常包括结构化和快速增长的复杂数据的复杂组合。” “已经通过Apache Drill进行了测试,Arrow中高效的内存中列表示和处理将使用户能够以JSON的灵活性享受列处理的性能。”

Nadeau预计Arrow的第一个正式版本将在几个月内发布。

版权© 2016 IDG通讯,Inc.