首页 > 科技 >

是时候该告别“数据主义者”们的毒鸡汤了(3)

2019-02-22 08:34:27 网络整理 阅读:159 评论:0

但真实的数据,实在是千差万别,即使是你自己所拥有的数据,也是如此。数据之间最主要的差异,是质量的好坏、口径的不同,以及背后业务含义的区别。

要让这些形态性状各异的数据能够真正为你所用,必须经过数据清洗。

数据清洗,一个几乎没有什么数据技术解决方案商会主动提及并且愿意收费提供的服务,因为这是一个极为耗费时间、人力,而又充满“风险”的工作。关键是,客户数据背后的口径,以及这些数据背后的业务含义,也不是一个外部的服务商能够短时间内搞清楚的。

这意味着,所谓的数据清洗,很可能本质上是一个庞杂的咨询项目。但,却很可能成为根本收不到多少钱的“附加服务”。

数据清洗都是用“血、泪、汗”在清洗……

Team曾经经历过一个真实的数据清洗项目,仅仅只是清理同一个事物的不同名的重复数据,就得忙上好几天,不是数据本身清洗有多难,而是沟通不同名字背后究竟是怎么一回事就得要了老命;再加上看似同样的指标,可能含义不同,于是又得几乎排查一遍。还有,各种数据记录的随意性和不一致性,各种系统之间同名字段定义的不一致性,你看到之后真的要跺脚骂娘!其工作的复杂、繁琐、无奈,以及脱发指数都是我经历过的工作中间数一数二的。

于是,我看到太多太多的数据系统架构和数据整合,是在有意无意中回避了有效的数据清洗的情况下完成的!

这时的数据本身,泥沙俱下,“藏垢纳污”,可靠性令人发指!这样的系统,不过是表面上把外包装搭好了,而根本不管这包装里面装的是何种洪水猛兽!

这样的数据和系统,因为质量不佳用不上反而是最好的结果,要是真的拿着这些数据做决策,那比没有数据凭着经验还要糟糕。

在理解数据孤岛这个事情的时候,我意识到,数据孤岛的存在有它的理由。这并不意味着我认为数据孤岛是好的,但若不经过真正可靠的数据清洗,那些看似在各个系统中你拥有的数据,真的把它们弄出来揉在一起后,你就会发现,要么根本用不了,要么根本用不上,甚至还不如过去的数据孤岛好使!

相关文章