图 :传统数据和分析堆栈

Description of your first forum.
Post Reply
asimd23
Posts: 592
Joined: Mon Dec 23, 2024 3:25 am

图 :传统数据和分析堆栈

Post by asimd23 »

毫不奇怪,大多数传统的云分析架构如下图所示:


如您所见,“分析仓库”负责向消费者提供分析的大部分功能。这种架构的问题如下:

数据存储两次,增加了成本并造成了操作复杂性。
分析仓库中的数据是快照,这意味着数据会立即过时。
分析仓库中的数据通常是数据湖中数据的子集,这限制了消费者可以提出的问题。
分析仓库的扩展与云数据平台是分 保加利亚手机号码数据 开的,并且不同,从而引入了额外的成本、安全问题和操作复杂性。
鉴于这些缺点,您可能会问“云数据架构师为什么要选择这种设计模式?”答案在于分析消费者的需求。虽然数据湖理论上可以直接为消费者提供分析查询,但实际上,数据湖速度太慢,并且与流行的分析工具不兼容。

如果数据湖可以提供分析仓库的好处,我们就可以避免两次存储数据!

数据湖的诞生
“” 一词于 年首次出现在 白皮书中 “湖畔别墅是什么?” 作者: 、 、 、 和 。作者提出了数据湖可以作为提供分析的引擎,而不仅仅是静态文件存储的想法。

数据湖供应商通过引入高速、可扩展的查询引擎实现了他们的愿景,这些引擎可处理数据湖中的原始数据文件并公开 标准 接口。凭借这一关键创新,该架构的支持者认为数据湖可以像分析仓库一样运行,而无需复制数据。

然而,事实证明,分析仓库还执行着其他重要功能,而这些功能仅靠数据湖屋架构是无法满足的,其中包括:

在广泛的查询中始终如一地提供“思维速度”查询( 秒内的查询。
Post Reply