91金融CTO宋传胜:金融大数据做得好不好,数据处理细节见分晓!

原创
CIOAge
“方法论慢慢成熟后,拼得就是细节。可能有一天又有一个新的东西出来,那个时候谁能够比较敏感地去抓住,他在那个阶段就会从技术上领先。”宋传胜说。

金融大数据在传统金融机构和互联网金融生态里应用的侧重点表现出了明显的分化。

【51CTO记者 李玲玲 北京报道】“传统金融机构跟互金平台在技术路线的发展上完全是两种不同的路子。”说起当前发展迅速的互联网金融,一位北京某银行技术专家曾对记者如是说。这种差异在金融大数据应用研究领域也尤为明显。

比如近年来,基于大数据分析的智能顾投类产品在一些商业银行和证券、保险机构的技术创新讨论中颇为常见。而在互金领域,大家却更希望运用大数据能够在获客、风控和流量导入方面成为企业业绩增长的有效助力。那么,就互金平台如何开展金融大数据研究与应用,记者独家走访了91金融CTO宋传胜。

成立6年,创立伊始便结缘大数据的91金融,目前通过金融、文化、众创空间、投融资四大业务板块构建了一条打通金融上下游客群的服务闭环。就如何用好数据来构建91金融的服务矩阵,作为企业技术带头人的宋传胜有着自己的一番见解。

“所有互金公司在这方面实际上都偏工业界的做法。因为学术界的方法可能会一直在变,但基本上成熟的方法论到了工业界都差不多,就看每个人的用法不一,而且能提升的空间也都有限。那么在方法论慢慢成熟后,拼得就是细节。可能有一天又有一个新的东西出来,那个时候谁能够比较敏感地去抓住,他在那个阶段就会从技术上领先。”宋传胜说。

 

特征提取:流量获取成本攀升,另辟蹊径

相比过去传统金融机构有限的线下获客方式,互金在获客渠道上具有先天优势。比如早期“金融超市”、91旺财等金融产品服务就为91金融用户数据的快速积累提供了便利。据宋传胜介绍,正是通过这些金融产品在服务用户和合作伙伴的过程中,他们接触到了大量对金融和保险有需求的用户,“一开始用户规模就比较大,都是上百万的用户。”随着用户规模的快速增长,除了要做好平台合规,更多还是如何用好这些数据“金矿”。

而当数据价值日益突显时,自然也催生了市场中流量获取成本的急剧攀升。在这种情况下,像91金融这样的创业企业开展大数据研究的作用则更加彰显。

诚然,用户在平台提交的信息质量和数量层次不齐,但这并不影响平台对数据的处理。“对于比较泛的用户刻画我们是有一整套方法的”,比如车险类用户有的只是提交“多贵的车,对保险的需求什么样,保费需求多大,包括过去在哪个保险公司投保等”这类信息。而对金融有需求的用户,比如有需要信贷的,有需要住房贷款的,91金融平台会有一个初步帮用户去评估信用的流程。“在这个流程里,用户需要填写一部分他的信息,相当于我们帮金融机构给这类用户做一系列初步的授信和分类。这个过程慢慢积累很多用户的一些技术数据,比如用户授信过程中会告诉我们,过去一段时间他的手机通话情况,包括社交媒体上的一些情况。有的用户因为接盘意愿比较强,他可能会给更多的数据,比如他可能给一些交易数据。通过这些数据,我们可以实现对用户的精准画像。”

另外,在对金融机构或合作伙伴的服务过程中,无形中也会帮助91金融平台进一步强化对用户数据的刻画。“时间长了,会有一些用户的特征情况和接受贷款服务的表现被标注出来,他们觉得这个人不合适,或者服务之后,依旧还款情况良好。当这些数据积累到一定量,我们就可以做一些数据模型,去刻画这些用户。再来一个新的用户,根据之前这些经验,我们也能计算出他可能违约的概率,通过授信模型为其提供匹配的授信额度。”

“这主要看你接触到用户的规模,贷后表现的数据规模,以及用户群体的多样性,这些人都是借一样的钱,还是干什么的都有,借房贷的,借车贷的,都不一样,在这个过程中去完善。而所有数据,我们都会去提一些特征,但不会把一些具体数据显示出来,而是进行大致的刻画。”宋传胜补充道。

[[207839]]

91金融CTO宋传胜

在他看来,即便只是依据用户性别、对资讯偏好一类“非常粗”的基本信息进行粗略的人群划分,依然会对未来开展金融产品的推销非常有帮助。“一般来讲,男性、女性,或者一个老玩游戏的人,或者重心在家庭更多一些的人,这些人的兴趣和贷后表现都是不一样的。你在广告投放时,将有限的预算放在表现好的、转化率会高一些的人群身上,是有帮助的。这是对泛流量的一些获取方法,相对来讲它的获取价格也比较便宜,但实际在价格便宜的流量里我们还是能够挖取到比较有价值的东西的。”

“比较精准的流量都相当贵。尤其现在互联网金融,特别是P2P行业竞争这么激烈,而且企业的获客成本从2014年开始到现在每年都在翻几番,在这种情况下,也需要另辟蹊径,现在我们就在尝试通过大数据去筛选一些更泛的流量,从里面将转化率可能更好的用户挖出来。”宋传胜坦言。

 

风控:技术趋同,细节见长

虽然属于新金融生态,但互金依然需要严格遵循金融规范,比如风控。

不过,在宋传胜看来,目前业内整体风控,尤其是信贷、消费金融类风控,各家技术实则比较趋同。

首先,在数据源方面,如果不是有特别独有的流量,原始数据都差不多。用户自愿授信的那些数据都一样,要不就是运营商的一些数据,要不就是共接平台,你只要接入了这类平台,实际上你的数据也就出去了。这些东西大家都是同时获取的。除非像腾讯或蚂蚁金服这类比较强势的,或者IPO的,它们有独家数据合作协议,这种优势非常大。但对于其他平台,数据源质量差不了太多。所以,数据源没有本质区别。

那么,各家的差异点在哪儿?宋传胜认为会从两方面有所体现:一个是流量获取来源。这实际上代表你的用户是什么样的;另一个,就是风控细节。因为风控每家千差万别,大家对风险的认知也都不同。91金融能够做到的是,从大数据的累积过程中挖取到更多维度的用户特征。

“细节的差别就体现在如果你想不到,你采集的数据源就没有这块,如果只是靠机器是很难识别的,它也无法识别。当然在这个过程中,你又不可能把所有数据都录入进来。所以这段时间我们是用人和机器一起去做特征挖掘。业界有的特征我们也都有,但我们也会去做一些额外的提取,可以说我们采的数据会更细。比如在APP里,包括用户使用过程中每一个细节,点一些页面的手势不一样,或者点的轻重不一样,每个页面的停留,或者填写顺序,修改次数等都非常细的去记录。当这些数据采集的非常细之后,就可以用程序去处理了。”宋传胜说。

 

安全:从数据保护到审计,功夫在内

无论是传统金融,还是互金平台,确保业务稳定、高效、安全是金融技术服务的核心。因此,在安全防护方面宋传胜与其技术团队也在持续不断地做很多事情。

“比如对数据的保护,数据的审计,以及敏感数据,我们都是高强度加密保护的。而对后台的审核人员或统计人员,则对他们采取掩码数据的措施,他是看不到完整数据的,即便有些场景需要脱敏去看,也都是有记录可寻的。再比如,我们最核心的基于审计的数据库,也是在大家都用的数据库基础上进行了自行修改,不再是通用的那种数据库。它不支持修改,比如我要修改一个东西,只能在数据库后面追加,而存储引擎不能做改动,这样能确保所有修订历史记录都能一步步查过去。即使有人想去改这个记录,也没法改,因为它是和加密结合的。这样从审计角度,就杜绝了数据库被篡改的情况。”宋传胜举例说。

 

人工智能:收效不明,小范围摸索

此外,在人工智能方面,据其介绍,目前互金行业的研究探索主要集中在风控模型的研究,比如分类模型或预测模型。而人工智能在识别方面的产出价值因为当前在互金行业尚不明朗,所以相应的研究也比较少,顶多是在比如有些用户授权平台可以浏览其短信和邮件,从其内容里会去提取用户的一些意图这方面做些尝试。至于交易类,像量化投资,还只是针对上市公司年报做些智能分析;或者是基于社交网络上大家对一个公司的讨论,比如这段时间大家对这个公司怎么评价的,去做一些情绪的风险预测;还有依据有些公司的一些产品在网络上被提到的次数,去做一些语义分析,然后再反过来去预测它的股价变化等。

 

数据处理:胜于细节

总体来看,如宋传胜所言,在互金领域,当各家的建模方法基本趋同的情况下,最终考校的还是各平台的数据处理能力。

“比如在大数据处理上,当模型的建模方法差不多时,你的模型特征发现的方法,这个各家能力是不一样的。如何从海量数据里,而且这些数据你不一定能察觉到它的关联性有多强,有些数据可能是持续的数据,比如用户行为,在一个界面里他点一下,停几秒,再点一下,或者他又回去改一个东西。从这种持续的时序数据中把你想要的特征自动找出来,这是一个非常大的挑战。”

因此,基于大数据处理持续去做新特征提取方法的尝试也是宋传胜当前极为关注的一个重点。同样,对自己辖下的量化投资部门,他也抱有相似的看法。

“量化投资主要做的事情就是从过去一段时间的期货、股票、二级市场交易的历史数据里构建交易模型。这里可能包含有截面数据,有每秒钟的交易量,对手盘的方向等等数据,它有每个时间点的买卖交易,所以在这个过程中,如何从时点数据去找规律,去建模型,去判断下一段时间一个标的物的走势方向,都是有共通之处的。这些我们都在摸索。”

说到数据处理能力,宋传胜感触很深,“这些最终都还是落在实践上的一种科学。”他认为,要做好数据处理,一个是需要对整个领域的理解比较深刻;再一个,更需要关注容易被人们所忽视的许多细节处理,“从方法上来讲,不管是深度学习,还是强化学习,有好多‘脏活’得处理好,对数据处理而言这一步非常重要。比如好多模型不起作用或者当时觉得对,一上去发现出现好多问题。这些往往就是因为操作人员输入不正确;或是数据输入、输出时我们自己没想明白,它中间隐含了一些相关性我们没搞清楚,***可能会导致因果关系是反的;或者数据采集时数据被污染了,进来的、出去的就是错的,结果你再怎么弄它都是错的。”

而且,“数据处理其实有好多特别细的活,很多做研究的人不爱干的这些事,比如提前处理数据,他会觉得很枯燥,认为这个没有技术挑战性。但这些事你不提前去想,不跟这些数据打交道,你对它就不敏感,很容易导致***做出来的东西就是错的。”

“整体上我们的优势就在于,过去在广告领域的积累使我们对用户的行为理解比较深,所以在数据采集维度上非常高,非常详细,这个处理过程,其他人可能想不到这些。”他说。

常言“思想认识是实际行动的先导。”在互联网竞争愈演愈烈之际,数据与流量无疑将是互联网金融企业安身立命之根本。企业在这方面的竞争力也会随着决策者理解的差异而不尽相同。可见,作为91金融在技术方面的***者、决策者,宋传胜正以自己在数据、技术领域的深刻理解在默默为企业各项平台的迸发而蓄能。(完)

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:wangxuze 来源: 51cto.com
相关推荐

2020-03-12 10:50:33

编程领域并发

2011-08-02 11:02:59

HTML 5

2018-08-03 16:11:41

彩电

2017-07-11 06:07:59

金融大数据互联网

2013-09-11 16:40:35

互联网金融大数据金融大数据

2014-03-12 10:31:32

大数据

2016-12-12 13:51:32

2011-03-27 01:25:42

英特尔Medfield智能手机

2013-09-05 10:04:01

互联网金融大数据金融大数据

2018-04-27 14:25:27

程序员专业展现

2009-12-21 11:08:24

上网行为管理

2010-02-06 16:36:59

Android手机

2017-01-11 15:06:51

大数据金融数据应用

2013-08-28 13:51:20

大数据金融大数据

2014-09-22 19:30:02

大数据软件分析金融数据

2012-09-24 10:10:35

打桩机AMDFX-系列

2016-04-11 10:44:55

新手资深开发者

2014-03-12 16:38:43

大数据

2017-01-17 14:04:26

数据消费金融

2018-08-17 16:23:33

5G华为苹果

51CTO技术栈公众号