氪信科技荣获KDD 2018 Startup Research Award
2018-07-24 18:55:34爱云资讯阅读量:515
银行在利用AI技术提升金融科技水平时,往往面临着一些挑战——比如如何有效挖掘和处理非结构化数据?如何提升知识库表示方法在金融领域的适用性?等等。近日,一直坚持技术要和金融场景相结合的氪信科技,凭借相关学术成果荣获KDD 2018 Startup Research Award.
氪信科技向KDD 2018大会提交了两项科研成果,分别是Sequential Behavioral Data Processing Using Deep Learning and the Markov Transition Field in Online Fraud Detection(通过结合循环神经网络和马尔科夫概率模型处理序列数据的深度学习网络架构),A Hierarchical Vectorized Representation of Knowledge Base——for Short Text Based Financial Fraud Detection(知识库的层级矢量化表示——在基于短文本的金融欺诈检测当中的应用),对金融领域高维度序列数据处理和短文本知识抽取应用提出了行之有效的方法。
高维度序列数据一直是大数据处理中的难题之一,相对于规整的结构化数据(如银行评分卡使用的数据),高维度序列数据往往由于缺失值多且不均、数据稀疏、个体与个体之间数据差异大等复杂属性,难以被传统的逻辑回归模型和集成树模型等现代机器学习模型使用。而银行业在面对客户下沉、线上服务扩展的情况下,必须提升处理这些数据的能力。
基于对金融场景的深度了解,氪信提出了一套结合RNN—循环神经网络和马尔可夫事件概率场叠加的卷积神经网络的深度学习结构。过去几年,GRU和LSTM等循环网络结构在处理事件流或文字等序列数据时,已被广泛证明有突出效果,其利用特殊的网络信息传递结构,来不断传递“历史”的信息,并适当“遗忘”当前的信息来平衡序列模型所常有的“过早的数据被遗忘,最近的数据被过分注重”的问题;而马尔科夫概率矩阵是一种通过事件间变动的概率来反应全局信息的数学方法。结合两者优势的网络结构,从移动端有效抽取可反映行为风险的因子,证明相较传统的特征工程结合树模型有更好的风险预判效果。
除了高维度序列数据处理难题,目前的知识库表示方法业并不能完全适用金融领域的短文本知识抽取应用场景。具体体现为explicit的知识库表示应变能力欠缺,不能很好的处理没有见过的表述;而implicit的知识库表示,在解释性方面又无法满足金融领域的业务需求。
对此,氪信提出了一种用于短文本知识抽取的知识库的表示框架。该方法在建立知识库的时候,利用矢量化层级化的存储,兼顾了短文本当中关键信息的模式和短文本本身的内容。矢量表达了短文本知识的核心语义结构,因此解释性得到了保证;层级化的存储则方便了模糊查询,使得创建的知识库具有更好的稳定性,可以面对不断修改的短文本语料库。
KDD全称是Knowledge Discoveryand Data Mining,即知识发现与数据挖掘,由美国计算机协会(ACM)下的数据挖掘分会举办。作为国际顶级数据挖掘盛会,每年吸引了世界各国数以万计人工智能科研人才和应用人才参与。2018 KDD汇聚了来自数据科学、数据挖掘、知识发现、大规模数据分析等诸领域的大数据研究及从业人员,并且得到了滴滴,intuit, 腾讯,facebook, amazon, 京东,百度,阿里,SAS, J.P.Morgan, IBM, Google, NETFLIX, Microsoft, Booking, 华为等知名企业支持。其中KDD 2018 初创公司研究奖是对初创公司研究成果、大会的贡献度、公司财务状况的综合考察结果,最终氪信凭借领先的AI技术,融合率先浸入大型金融场景打磨形成的知识体系和实战经验,在申请企业中脱颖而出。