毫不奇怪,大多数传统的云分析架构如下图所示:
如您所见,“分析仓库”负责向消费者提供分析的大部分功能。这种架构的问题如下:
数据存储两次,增加了成本并造成了操作复杂性。
分析仓库中的数据是快照,这意味着数据会立即过时。
分析仓库中的数据通常是数据湖中数据的子集,这限制了消费者可以提出的问题。
分析仓库的扩展与云数据平台是分 保加利亚手机号码数据 开的,并且不同,从而引入了额外的成本、安全问题和操作复杂性。
鉴于这些缺点,您可能会问“云数据架构师为什么要选择这种设计模式?”答案在于分析消费者的需求。虽然数据湖理论上可以直接为消费者提供分析查询,但实际上,数据湖速度太慢,并且与流行的分析工具不兼容。
如果数据湖可以提供分析仓库的好处,我们就可以避免两次存储数据!
数据湖的诞生
“” 一词于 年首次出现在 白皮书中 “湖畔别墅是什么?” 作者: 、 、 、 和 。作者提出了数据湖可以作为提供分析的引擎,而不仅仅是静态文件存储的想法。
数据湖供应商通过引入高速、可扩展的查询引擎实现了他们的愿景,这些引擎可处理数据湖中的原始数据文件并公开 标准 接口。凭借这一关键创新,该架构的支持者认为数据湖可以像分析仓库一样运行,而无需复制数据。
然而,事实证明,分析仓库还执行着其他重要功能,而这些功能仅靠数据湖屋架构是无法满足的,其中包括:
在广泛的查询中始终如一地提供“思维速度”查询( 秒内的查询。