数据湖与数据仓库的区别

微信截图_20220907164631.png

1、数据结构:数据仓库只能存储经过处理和提炼的数据,而数据湖存储尚未出于某种目的处理的原始数据。因此,数据湖需要比数据仓库大得多的存储容量,且数据灵活、分析迅速,非常适合机器学习。

2、加工:数据仓库使用写入时序模式的方法来处理数据以赋予其形状和结构,而数据湖对原始数据使用读取模式来处理它。

3、成本:存储在数据仓库中的成本可能很高,尤其是在有大量数据的情况下,而数据湖是专为低成本数据存储而设计,成本更低廉。这就解释了为什么许多公司更喜欢数据湖。

4、目的:数据仓库的好处之一是存储空间不会浪费在可能不会使用的数据上,所以数据仓库仅保存已用于特定目的的已处理数据。而数据湖存储原始数据,这些原始数据有时具有特定的未来用途,有时仅用于囤积。因此,数据湖中的数据组织和过滤较少。

5、用户:数据仓库主要由熟悉已处理数据主题的 IT
或业务专业人员所使用,而数据湖中的非结构化数据通常需要数据科学家或工程师在使用数据之前组织数据湖。

6、可访问性:数据仓库是按设计构建的,因此难以访问和操作。相比之下,数据湖几乎没有限制,并且易于访问和更改,数据支持快速更新。这算是数据湖的关键优势之一。

原创文章,作者:网友投稿,如若转载,请注明出处:https://www.cloudads.cn/archives/4212.html

发表评论

登录后才能评论