从美国到中国,他用大数据拼写中国的Fintech | 数据科学50人·呼延如生

bigdataway 提交于 周五, 04/20/2018 - 19:37

文/程一祥

如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学家门又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的数据科学顶尖专家,了解这些神奇的人和他们的神秘事儿,带你们一窥数据科学的未来与未知。

崛起的中国互联网金融力量

2017年11月11日,一天内,中国消费者在天猫平台上,花了超过1682亿人民币。

以“双十一”为代表的各大购物狂欢节,在过去的近十年里,侧面见证了中国消费市场的发展和繁荣。“买买买”、“剁手”等网络热词,变成了大家生活中的口头禅。鼎盛的消费浪潮和升级的消费观念,也唤醒了中国的信贷市场,互联网金融产业逐渐走到了这股消费漩涡的中心。

在中国互联网金融行业中,如果足够细心,你会发现很多“中坚力量”的工作履历上,都会出现一个相同的名字——Capital One(美国第一资本金融公司)。

如今,这些“中坚力量”有的在巨头公司身兼要职,比如百度副总裁黄爽、蚂蚁金服金融风险管理负责人余泉、小米金融信贷业务负责人陈曦;有的自立门户,成为逐浪的创业者,比如挖财总裁顾晨炜、读秒CEO周静、拍拍贷COO章峰;有的则进入传统金融机构开拓创新业务,比如银联智策的创始人赵萌、呼延如生。

据统计,有上百位Capital One精英在过去几年陆续回国 ,占据了国内互联网金融的半壁江山。网上有人称他们为“第一黑帮”,把他们看作中国金融科技的重要力量。虽然看似有些夸张,但是有着Capital One背景的人,的确如今大受国内市场追捧。

Capital One这家公司的强势崛起,被普遍认为是数据科学在消费金融行业取得成功的经典案例。

从上世纪九十年代到二十一世纪初的十年间,Capital

One凭借独特的数据分析能力,从一家无人问津的区域性小银行的一个部门,变成了美国排名前三的信用卡公司。后来,它又最早引入了机器学习等数据科学手段革新金融业务,并靠着自己独特的算法、模型安全度过了2008年金融危机,如今已经位列美国前十大银行之列。

呼延如生就是曾经Capital One的一员。在他办公室的书架上,还摆放着他与创始人Richard Fairbank等人的合影。

(图片说明:呼延如生与 Capital One创始人 Richard Fairbank等合影,左后一是呼延如生)

扛过了08年次贷危机、从零到一建立起Capital One新一代数据驱动决策体系...呼延如生与Capital One这家以“数据科学”著称的公司,一起经历了很多重要的历史时刻。2012年,他与“老战友”赵萌一起回国,联合创立了大数据金融科技公司银联智策。

一个春日的午后,DT君在上海世纪大都会见到了呼延如生博士。他的办公桌非常简洁,除了一台电脑,桌上只放着几本专业书籍,最上面的是Burton G. Malkiel 的经典金融投资著作《漫步华尔街》( A Random Walk Down Wall Street )。

呼延如生的数据科学之路,某种程度上与 Burton 的书名有点语义上的相似——人生有很多不确定因素,“随机漫步”中,他逐渐找到了自己要走的道路。

现有的技术不靠谱,那就自己创造更好的

当呼延如生在巴基斯坦的工地上开混凝土罐车的时候,他从来没想到自己有一天,会成为一个经常与计算机打交道的数据科学家。

1994年,呼延如生从清华大学水利工程系毕业后的第一份工作,是去巴基斯坦修建一座跨河大桥。那时的他,要异国他乡的工地上,自己测量、自己开混凝土罐车,然后自己拎搅拌棒搅拌材料,完成大桥基础设施的建设工作。可以说所有业务基本都是“全自动”——全部自己动。

1998年,他的同学告诉他,美国大学里正在研究一种更先进的绿色工程项目,劝他要不要出国看看。于是他考取了奖学金,漂洋过海来到美国求学。这时他才发现,原来国外的水利工程也是“全自动”——不过全部是机器在动,人的任务主要是控制复杂的机器系统。

呼延如生当时学习的主要是管道运输系统——利用管道技术,通过控制电磁、液压、水流等复杂系统,快速、高效地运输煤炭、粮食等货物。控制这套复杂系统需要大量的智能硬件与计算机科学知识,这算是呼延如生走进数据科学的起点。

“我们当时就差没有想到用它来运送人”,呼延如生回忆当时的学习生活时说道。十几年后,Elon Mask提出的Hyperloop“运送人类”计划,堪称当年这种管道工程的翻版 。

随着研究的进行,他逐渐发现在自己在计算机方面越来越感兴趣。他的博士学位是计算机工程与计算机科学方向,是一个水利工程与计算机的交叉学科。美国活跃的学术氛围也让他经常有做交叉学科项目的机会。

(图片说明:呼延如生接受DT君专访)

有一次,他的导师要做一个远程医疗课题,主要是让患者和医生通过网络实现视频诊疗的效果,其中一个重要的部分就是语音识别。系统需要把医生的语音及时转换成文字,以便与患者沟通交流。当时,导师就把这个任务交给了呼延如生,要他搭建一套语音转文字系统,在工程上能够达到响应速度快,识别精度高的商用要求。

工程出身的呼延如生最初的设想是,借助当时语音识别领域大牛Nuance的产品,直接搭建平台。作为全球最早成功实现语音识别商业化的公司之一,Nuance在那个年代的语音识别领域,就像巨无霸一样,市面上90%的语音识别产品都会采用它的技术。

“我们本来是购买的当时业界大牛Nuance的产品,觉得只要大家搭一个系统就好了。但是一实验才发现,Nuance的语音转文字速度太慢,而且准确率就跟抛硬币一样。根本无法满足实际需求。”呼延如生说道。

没办法了,Nuance不靠谱,他们就只能自己来。“我当时第一件事儿就是找来李开复的论文开始读,研究自然语言处理核心算法。”就这样,他们被项目逼着开始了对数据科学的探索。

在团队中,他主攻大规模快速模型计算领域,还有两个师兄弟分别负责操作界面和快速搜索。白天,他要背着录音设备采集远程医疗的语音训练数据;晚上,又要把积累的语音和文本文件分配在几十个PC服务器节点上,不断研究调试分布式算法。

终于在2005年,呼延如生和他的团队实现了全美第一个可在医疗领域医疗商用的实时翻译系统。

这件事儿让呼延如生这些年轻的工程师们,第一次尝到了数据科学实实在在的甜头——他们的翻译系统被应用到美国多家医疗系统中,解决了远程医疗中的语音转换问题。

比起基础研究,呼延如生喜欢离项目更近的实际问题。而且在数据科学中,他越来越发现很多方法都是融会贯通的,相似的方法论可以有不同的应用场景。这也为日后选择金融行业埋下了伏笔。

在Capital One的光辉岁月

由于在语音识别领域的出色表现,还未毕业的呼延如生就拿到了德州一所大学和Nuance的offer。去Capital One的面试时,他原本只是计划去体验一下。

“灰色林肯礼宾车,五星级酒店,吃好睡好然后面试。”这么多年过去了,呼延如生对当时应聘的情景还记忆犹新。

不知是有意为之,还是天然如此,Capital One的整个招聘过程营造出了一种“精英俱乐部”的文化氛围——高规格接待、高强度测试、极低的通过率。

“它的笔试就很难,通过率很低。进入到面试的那一天我们叫power day,就是一天下来,人整个就累的不行了。”呼延如生回忆道,自己当时有十个小伙伴一起面试,后来才发现只有自己通过了考核。

这种有挑战的工作激起了呼延如生的强烈兴趣。他放弃了薪水更高的选择,果断决定加盟Capital One。

那是2006年,彼时的Capital One已经在业内略有名气。创始人Richard Fairbank早在1988年就提出了“数据驱动”的概念,经过十几年的发展,数据基因已经牢牢地写在了Capital One的血液里。

当呼延如生加入的时候,Capital One正在经历它的第二次数据转型。由Bill Khan领导的公司的技术团队,逐渐将业务从基于历史的经验分析和基于客户群组的群体性分析,转变为为基于模型的预测性以及基于客户的个体性分析上来。

过去的模型逻辑逐渐无法胜任新的业务要求了,呼延如生第一个重大任务,就是建立一套全新的预测性风控模型。

那个年代里,美国的信用市场上,大多金融机构使用的都是FICO的信用评分模型,但是Capital One觉得这个模型并不好,不能有效地评估信用,于是他们就希望自己建立一套信用评分体系。

不过这种标新立异的行为,在以华尔街为代表的主流市场看来,却并不看好。

“因为Capital

One的发卡用户一开始好多都是华尔街看不上的客户”,呼延如生说,他们也被称为是Main

Street,代表居住在低收入街区的普罗大众用户。在传统的风控模型中,这些用户收入较低,不受传统的金融公司欢迎,但是Capital

One通过自己的数据算法,从中选出了大量优质客户,针对他们进行了早期的金融业务布局。

呼延如生和他的统计分析团队从征信局购买了全量数据样本,通过复杂的计算和分析最终建立了一套新的的风控模型,在风险区分度上比FICO要好50%以上,且更加可靠和稳定。

2008年,美国贷危机引发的金融海啸席卷全球,无数金融机构在这场危机中损失惨重。神奇的是,Capital One却越战越勇,在哀鸿遍野的美国金融市场上持续盈利。这让全世界都开始关注到这家神奇的“数据驱动”公司。

呼延如生认为,Capital One长期以来基于数据开发的“客户估值模型体系”是他们战胜金融危机的最重要原因,他参与研发的风控模型就是其中一个重要的组成部分。

“我一直觉得我们这一代数据科学家是幸运的,因为我们的很多数据科学模型,抗住了金融危机的考验,被证明是真正有作用的。” 呼延如生说道。

一个“更接近哲学”的数据科学家

经历了金融的危机的洗礼,呼延如生对数据科学在金融领域的应用有了更深刻的认识。

危机后,Capital One收购了很多美国银行和它们的信用卡业务,并成立了一家新的子公司,从数据科学的角度,帮助这些银行收拾它们留下的房贷和车贷的烂摊子。

当时Capital One的首席风险官Sam Deshpande负责主导这块业务。呼延如生主动加入了这次“内部创业项目”,带领团队从无到有地建立了一整套数据决策体系。“包括数据、模型、算法、系统等等,最后做到一个分析师借助平台就可以完成一些列业务决策。”

离开Capital

One后,呼延如生先后在SAP和MasterCard等公司继续自己在金融科技领域的探索。在这期间,他见证了这些国际化的金融公司通过数据科技来进化业务的过程。与此同时,国内互联网金融大潮风起云涌,各种新技术、新概念层出不穷。但呼延如生也注意到,一些传统机构并没有对即将发生的变化做好准备。

2012年,同样毕业于清华大学,也同样在Capital One工作过的赵萌找到呼延如生,希望跟他一起在中国银联旗下尝试创办一家以数据科学为基础的金融科技服务公司,也就是后来的银联智策。

作为如今世界上最大的发卡组织,中国银联已经累计发出了60多亿张银行卡,每年产生超过三百亿笔交易,覆盖规模超过8亿持卡人、3000万商户。这样的数据和市场规模,让呼延如生看到了数据科学在中国金融市场上的巨大潜力。

两人一拍即合,希望将海外的金融科技经验带回国内发展。

创立银联智策是中国银联增值业务体系的一次尝试,希望以大数据为切入点,提升传统金融服务的效率和服务规模。

2013年,余额宝的横空出世引爆了中国的互联网金融行业,这也加速了中国银联等传统金融机构在金融科技领域的布局。

“我们始终要坚持走大数据的方向,始终做下去。”亲历过金融危机的洗礼,数据驱动在呼延如生的脑海中已经不是某种方式方法,而是一种潜移默化的思维和文化。

银联智策总经理、CEO赵萌也在很多公开场合提到相似的观点,对他们来说,数据科学就像是革新未来金融服务的一把金钥匙,是应该坚定不移追求的方向。

他们在中国银联消费大数据的基础上开发出了一系列风险定价模型和评分体系,用大数据勾绘出消费者的精准画像及商户的真实经营情况等,为金融风控、信贷审批、精准营销、投资决策等实际应用场景提供了智能化决策支持。

银联智策在成立第二年就实现盈利,并在五年里实现了净资产数倍增长。

“其实,我希望自己未来能够成为一个更接近哲学的数据科学家。”呼延如生有时会用一些更加形而上的话语,来解释自己的数据科学观。

“以人为鉴,可以知得失;以史为鉴,可以知兴替;以数为鉴,可以谋未来。我们所预见的未来存在于一个能够捕捉世界的全息信息,实时感知每一个角落的细微变化,并能够与人类智能化交互的数据镜鉴系统之中。在这样一个系统之中,数据万象得以体现,人类福祉获得升华,贪婪与恐惧受到抑制,风险不再失控。”

在访谈快结束时,呼延如生告诉DT君,他越来越觉得数据科学更像一个开放的思维框架,超越了技术本身,囊括我们生活的方方面面。数据赋予我们一个全新的空间,人们要逐渐学会用新的视角来寻找答案。

“有时候,我在想自己能否成为在数据世界里仰望星空的那个人。”

也许,这就是数据科学最吸引他的地方。

题图 | 站酷海洛

期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。

▍关于数据科学50人

数据科学50人项目是DT财经旗下数据侠计划重点内容产品,旨在与数据科学领域KOL共同挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

▍数据侠门派

呼延如生,银联智策联合创始人、首席运营官、董事。清华大学水利工程专业,获得美国密苏里大学计算机工程与计算机科学专业及统计学专业博士学位。历任SAP研究院、第一资本银行、万事达顾问等知名跨国机构高级技术与管理职务,在归国之前是美国人工智能与金融科技领域规模化应用的早期探索者之一,在博士研究期间开发了美国首例基于大规模自然语言处理的远程医疗实时诊断交互系统。在技术开发、信息决策、金融科技、人工智能以及大数据应用领域拥有丰富的实战经验。学术研究方面,在自然语言处理领域富有独创性的研究成果,多篇论文在重要国际学术会议以及专业期刊上发表。2017年入选“上海市海外金才”。

▍加入数据侠

“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“ 数据侠计划 ”,投稿、合作请联系datahero@dtcj.com。