忘掉大数据 思维才最重要
在传统金融行业里,很多银行只会考虑发贷款或者发信用卡之前的风控分析。很多银行到人民银行拿到一些个人消费者征信报告,这些数据包含了消费者以前其他的贷款、每个月工资情况等等这样一些最基本的信息。银行根据信息打分,然后这个分数之上的消费者可以获批贷款,在分数之下的就不会获批。这整个过程是成本较高的,因为任何一个报告都是要花钱去买。第二点是很多情况下需要面访,现场进行风险考察,然而这个考察过程中数据的真实性和有效性也是值得商榷的。
比如我们的一个客户——邮政储蓄银行。向他们贷款的很多客户是农民,他们在种植或者养殖生产中需要资金支持,比如用来投资买种子或者购买种植养殖的基本设施。但是当面谈的时候他或许假装家里有一头牛,我将来可以卖掉这个牛还款,但这个牛有可能是从他的邻居家拉过来的。所以真正证明贷款申请人信用的数据真实性和有效性是解决这个问题过程中非常核心的问题。数据是否是真实有效的、数据是否跟最后结果有关系,这就是我们在数据思维决策过程中需要考虑的两个非常核心的问题。
“其实我是有一点近视眼的,我看很远处的一个广告牌,上面的文字有时我看得不是很清楚,但我的大脑是能够猜出来文字大概是讲什么的。本质上是因为在我的大脑是拥有识别低分辨率的数据,同时再把它还原推测到高分辨率的那个能力。这种能力其实也是大数据公司里面非常核心的能力。"
2、数据治理:还原推测到“高分辨率”
我接下来就给大家讲讲处理数据里面最核心的两个工作。第一个工作我们称之为数据清洗或是叫数据治理。
很多公司拥有大量的数据,但如果这些数据没有办法整合到一起,没办法清洗、在线化,没办法让使用者方便取用,那即便数据量再大也不能说这个公司有大数据。所以清洗和整合数据是非常重要的。通常在技术领域有一个概念叫“ETL”,ETL其实只把数据抽取到一起,进行数据格式统一化,最后再加载到一个可应用的平台上,这是整个数据治理行业里面最核心的几个环节。但在大数据概念出来之后,跟传统ETL有一个挺大的区别在于数据格式跟以前相比更加复杂。通常我们所谓的大数据、我们处理的数据除了包括以前的结构化数据,还包括新的非结构化数据。
非结构化数据是指数据里每一条记录之间的格式并不统一,甚至很多数据都是脏数据。大家可以想象银行的很多数据,比如消费者注册信息:姓名、年龄、手机号、身份证号,包括月收入可能都要求填,但很多情况下大家填信息的时候格式都不一定统一,比如说手机号可能有一些人填没有加“86”,再比如说身份证号有人填的是18位的,有人填的是15位的,这些信息是否是统一格式对于未来的数据应用非常关键。
相关新闻:
0条评论
网友评论