ODS、DataLake与Diversity
王福强
其实DataLake(数据湖)在不同的人那里会有不同的理解,但在我看来, DataLake(数据湖)其实就是传统数据仓库理论中的ODS 1层概念的扩展,只不过, ODS传统上往往汇聚的是相对单一的结构化数据, 而DataLake(数据湖)则多样化的引入了多种结构化与非结构化数据进行存储(和计算)。
在数据行业有一个术语叫”Garbage In, Garbage Out”, 也就是数据最好是得经过清洗提纯(ETL)之后再进行下一步或者下面N步的数据处理,ODS层存放的其实就是初步清洗和提纯之后的数据。
但随着基础设施存储能力与计算能力大大大的提升,一个不成熟的想法就可以诞生了(我猜的,别太当真),我tnd可以把所有数据都拿过来集中起来存储和计算呀,管你哪儿来的, 管你啥格式,管你需不需要来, 我照单全收,反正老子有钱,哦不, 反正老子有磁盘,你想要啥数据的时候, 我都可以从这些照单全收的数据里帮你提取出来不就得了吗? 还不用像过去孙子一样求爷爷告奶奶地找业务研发把数据库schema设计的合理一点儿,反正啥数据都收上来了,要的时候都有。 这就像淘金一样, 泥沙俱下没关系,金子本来就是从沙子里提纯出来的嘛,反正老子有钱,哦不,又错了,反正老子有空间,都先照单全收了,慢慢炼! 淘金策略就是爽, oh,yeah~
Operational Data Store↩︎
「为AI疯狂」星球上,扶墙老师正在和朋友们讨论有趣的AI话题,你要不要⼀起来呀?^-^
这里
- 不但有及时新鲜的AI资讯和深度探讨
- 还分享AI工具、产品方法和商业机会
- 更有体系化精品付费内容等着你,加入星球(https://t.zsxq.com/0dI3ZA0sL) 即可免费领取。(加入之后一定记得看置顶消息呀!)

存量的时代,省钱就是赚钱。
在增量的时代,省钱其实是亏钱。
避坑儿是省钱的一种形式,更是真正聪明人的选择!
弯路虽然也是路,但还是能少走就少走,背后都是高昂的试错成本。
订阅「福报」,少踩坑,少走弯路,多走一步,就是不一样的胜率!
