忘掉大数据 思维才最重要
今天很多互联网公司都是拥有大量数据的,中国最大的三巨头BAT都拥有海量消费者网名数据。百度云每天一个人搜索数据,阿里拥有每个人每天购物的浏览数据和下单采购数据,腾讯就不用说了,他有我们每个人的聊天记录、通信记录。他们拥有的数据都是非常可怕的。这些数据有一个很主要的工作在清洗过程中,就是需要把数据的唯一用户标识进行统一,因为很多的数据是散落在不同的子平台上的,在不同的平台上的可能会有不同的唯一标识,在有的情况下一个网名是处于登陆状态,而有些情况下是处于没有登录的情况。如何把不同的数据都打到同一个标签上是很多公司正在做的事情。
像我最近在跟几个阿里包括车老师,还有腾讯的人聊,他们自己内部都有一个类似于叫自然人计划的项目,这是公司的核心项目。这个项目工作就是把整个集团下属的所有公司的数据收集到一起,把这些数据连到一块儿,把消费者行为最后标到一个真正的可以看出来的一个自然人身上。比如说像我在阿里体系里不仅是有购物行为,还有在高德地图上的浏览的行为,而且我在高德地图上是没有登录的,那在阿里体系里面他就需要通过一些算法的猜测,而这个人使用地图的具体行为可能正好也就是这个人使用的支付宝账号的信息,他们通过一个算法是可以关联起来的。实际上这个关联并不难,因为我这两个行为都是落在同一个手机上的,他可以通过手机的ID就可以把我的行为连起来了,最后得出结论就是吴明辉的。
所以前面我也反复提到过好多次,数据实际上是每一个人、每一个个体、每个机器、每天日常的各种人的行为的一些记录。因为程序的能力,可以把数据及行为记录下来,这就产生数据。但是任何一个商业公司也好,甚至是国家也好,都没有能力去记录一个个体、一个人一天二十四小时所有的行为,这是不可能的。每个人只能记录一个片段,所以数据清洗的过程还有一个很重要的工作就是想办法把一个人的所有行为进行补全,甚至对你的未来行为进行预测。
这就好比平时用数码相机照相,平时看到一张照片是一百万像素、五百万像素还是一千万像素的,事实上大家可以理解整个世界的像素是无穷的。但是我们最后把拍照存下来的时候肯定是有限制的,如几百万或者一千万,最高可能有几千万像素的相机。但实际上拍下来,真正数码化存下来的时候,他已经是一个采样的过程,就是把真正分辨率极高的这个真实世界里面的一部分信息抽样存下来,然后分辨率越高,就是抽样的比例越高。分辨率越低,抽样的比例越低。
相关新闻:
0条评论
网友评论