您的位置:主页 > 新闻报道 > > 正文

金融知识图谱创业:竞争需从“数据”跨向“技术”

信息来源:商务新闻 文章作者:商务交流网 发布日期: 2018-05-12

  简单的说,知识图谱是信息(实体)本身以及信息之间的关联,是计算机实现智能的基础。知识图谱之于计算机,就好比知识之于人类。

  人类天生擅长将信息进行分类、关联,但并不擅长记忆、处理海量碎片化的信息,但计算机可以。所以当前越来越多的AI创业公司开始致力于攻克构建知识图谱的底层技术。

  不同于拥有大量C端数据的BAT,该领域的创业公司往往从垂直领域的企业级服务切入。目前在国内,金融、法律、医疗、智能客服、安防等行业都已经有了致力于该领域知识图谱构建的AI创业公司,但金融行业由于其行业特点将成为该领域创业最大的蓝海。

  

  图:知识图谱的构建与应用

  半自动化构建知识图谱的代表 数据供应商面临三大痛点

  金融行业的特点决定了其对金融知识图谱的刚性需求。首先,金融行业拥有海量的包含各行各业的数据信息,而且这些信息又以各种形式(如文字、表格、图形等)存储在大量的文档上,这些都是非标准化、碎片化的信息,需要被整理成标准化的、相关联的金融知识图谱,才便于金融从业者使用。其次,金融行业的公开文档具有一定的法律效应,故对于数据的精确性、时效性有很高的要求。

  目前,整理这些数据的工作主要还是由金融数据供应商来完成的。

  而其中的明星级代表就是万得(Wind)。它所采用的是数据爬虫技术,从公开渠道第一时间获得企业工商信息、财务报告等数据,再由大量人工进行整理和分类,以“人力模式”结构化这些信息,再通过万得终端提供给金融从业者使用。万得作为当前最大的金融数据拥有者,通过多年在金融行业中的经营与积累,拥有了丰富的金融知识图谱数据以及大量的金融客户,但其知识图谱的构建却是半自动的过程,仍需要人工操作。

  这种模式现在看起来似乎没什么问题,但其中存在三个最大的痛点:第一,数据供应商不能够“实时、敏捷”地提供金融知识图谱。由于半自动化的知识图谱构建技术,需要人工将金融文档中的信息提取出来,快则数小时,慢则好几天,还容易出错。这就无法满足一些对准确性、及时性、无人工等有高要求的应用场景,比如金融监管、机密文档复核、内部审计等。第二,数据供应商所拥有的知识图谱仅包含了公开数据,大量机密的、内部的、更为重要的数据不能被外部数据供应商整理成知识图谱。第三,人工无法整理所有数据。以万得为例,由于受到人工能力限制,其整理的数据仅包含资产负债表、利润表、现金流量表中的主要数据,无法提炼出企业报告中其余上百个表格数据以及隐藏在大量自然文本段落中的信息,而这些信息正是深入分析该企业的业务和财务状况的底层数据。

  简而言之,以万得为代表的数据供应商还不具备实时、全面地“构建知识图谱”的能力和技术,出售的仍然是数据本身。

  所以,面向企业级服务的AI创业公司都致力于能够全自动化的构建金融知识图谱,解决上述三大痛点。但是目前该市场还是处于需求大大高过供给的情况,这或许是由于全自动构建知识图谱的这项底层技术实际上在学术界都是一个难点。

  全自动化构建知识图谱的核心技术是NLP与CV的融合

  人们在阅读金融文档的时候,对其中的自然段落、图表中的信息在很短的时间内便能理解其中的意思,但对于计算机来说,这中间还有几个转换步骤。

    

  图:全自动化构建知识图谱的过程

  首先,当计算机看到一份金融文档的扫描图片时,看到的仅仅是图片中所有光点所呈现的数字矩阵;然后,通过OCR(Optical Character Recognition,光学字符识别)技术,将庞大的数字矩阵转换成包含字符以及字符的位置信息的矢量文档,比如金融行业最常见的PDF格式的文档就是矢量化的文档。但是,在此阶段,计算机看到的仅仅是一个一个的文字以及该文字的位置,并不能知道哪些字符组成了主语,哪些字符是谓语动词,哪些数字是关键信息,文档的哪些部分是表格。

  接下来,需要让计算机将这些零散的单个字符组合成金融知识图谱,这就需要用到富格式文档(Richly Formatted Data)处理技术。在这个阶段,就是计算机将零散的字符提炼成信息的阶段,也是技术上的难点。因为各类披露的金融文档呈现为富格式文本的形式,包含篇章结构、文字段落、数据表格等各类形式,而计算机对于不同形式的文本需要使用不同的处理技术;同时不同渠道获得的金融文档内容还可能出现不一致的地方,这还需要AI模型能够分辨矛盾数据、噪音数据。

通知公告更多>>
新闻报道更多>>