基于openLooKeng的交互式分析是怎样的

85次阅读
没有评论

共计 2055 个字符,预计需要花费 6 分钟才能阅读完成。

本篇文章给大家分享的是有关基于 openLooKeng 的交互式分析是怎样的,丸趣 TV 小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着丸趣 TV 小编一起来看看吧。

在这个“信息爆炸”的时代,大数据已经成为这个时代的关键词之一!随着云计算、物联网、移动计算、智慧城市、人工智能等领域日新月异的发展,人类社会已经步入了“信息高速路”的行驶轨道,数据量增长迅速,各类应用对大数据处理的需求也发生着变化。

与此同时,“久经沙场”的数据仓库不再一统江湖,而以实时分析、离线分析、交互式分析等为代表的计算引擎势头迅猛。

华为云 3 年前发布的 Serverless 大数据分析服务 – 数据湖探索 DLI,经过这几年的迭代升级,已经包含用于实时分析的 Flink 引擎,用于离线分析的 Spark 引擎。今年基于华为开源 openLooKeng 引擎的交互式分析功能,也将于 Q4 重磅发布,便于用户构建轻量级流、批、交互式全场景数据湖。

openLooKeng 使用了业界著名的开源 SQL 引擎 Presto 来提供交互式查询分析基础能力,并继续在融合场景查询、跨数据中心 / 云、数据源扩展、性能、可靠性、安全性等方面发展,让数据治理、使用更简单。

关键特性 1. 毫秒级查询性能

DLI 使用的 openLooKeng 引擎在内存计算框架的基础上,还利用许多查询优化技术来满足高性能毫秒级的交互式分析的需要。

1.1 索引

openLooKeng 提供基于 Bitmap Index、Bloom Filter 以及 Min-max Index 等索引。通过在现有数据上创建索引,并且把索引结果存储在数据源外部,在查询计划编排时便利用索引信息过滤掉不匹配的文件,减少需要读取的数据规模,从而加速查询过程。

1.2 Cache

openLooKeng 提供丰富多样的 Cache,包括元数据 cache、执行计划 cache、ORC 行数据 cache 等。通过这些多样的 cache,可加速用户多次对同一 SQL 或者同一类型 SQL 的查询时延响应。

1.3 动态过滤

所谓的动态过滤是指是在运行时(run time)将 join 一侧表的过滤信息的结果应用到另一侧表的过滤器的优化方法,openLooKeng 不仅提供了多种数据源的动态过滤优化特性,还将这一优化特性应用到了 DataCenter Connector,从而加速不同场景关联查询的性能。

1.4 算子下推

openLooKeng 通过 Connector 框架连接到 RDBMS 等数据源时,由于 RDBMS 具有较强的计算能力,一般情况下将算子下推到数据源进行计算可以获取到更好的性能。openLooKeng 目前支持多种数据源的算子下推,包括 Oracle、HANA 等,特别地,针对 DC Connector 也实现了算子下推,从而实现了更快的查询时延响应。

2. 高可用

2.1 HA AA 双活

openLooKeng 引入了高可用的 AA 特性,支持 coordinator AA 双活机制,能够保持多个 coordinator 之间的负载均衡,同时也保证了 openLooKeng 在高并发下的可用性。

2.2 Auto-scaling

openLooKeng 的弹性伸缩特性支持将正在执行任务的服务节点平稳退服,同时也能将处于不活跃状态的节点拉起并接受新的任务。openLooKeng 通过提供“已隔离”与“隔离中”等状态接口供外部资源管理者(如 Yarn、Kubernetes 等)调用,从而实现对 coordinator 和 worker 节点的弹性扩缩容。

3. 融合场景

实时分析、离线分析、交互式分析这三种场景中在很多实际业务中都是同时存在的,DLI 引入 openLooKeng 引擎之初就考虑了如何跟已有的 Spark 引擎进行元数据层面的互通,从而实现离线分析结果,免数据搬迁直接就可以用 openLooKeng 引擎进行交互式分析。Spark 和 openLooKeng 都支持 Hive 的建表方式,通过这种方式,实现了元数据层面的互通。

4. 统一目录,跨域跨 DC 查询

DLI 老用户使用比较多的功能是跨多种数据源的联合查询,用于更全面地对数据进行关联分析,释放数据价值。这次引入 openLooKeng 引擎将跨源查询的能力进一步延伸,开发了跨域跨 DC 查询的 DataCenter Connector。通过这个新 Connector 可以连接到远端另外的 openLooKeng 集群,从而提供在不同数据中心间协同计算的能力。其中的关键技术如下:

4.1 并行数据访问

worker 可以并发访问数据源以提高访问效率,客户端也可以并发从服务端获取数据以加快数据获取速度。

4.2 数据压缩

在数据传输期间进行序列化之前,先使用 GZIP 压缩算法对数据进行压缩,以减少通过网络传输的数据量。

4.3 跨 DC 动态过滤

过滤数据以减少从远端提取的数据量,从而确保网络稳定性并提高查询效率。

以上就是基于 openLooKeng 的交互式分析是怎样的,丸趣 TV 小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注丸趣 TV 行业资讯频道。

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-08-16发表,共计2055字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)