88858cc永利(中国区)有限公司官网

88858cc永利官网动态

咨见 | 基于自然语言处理的银行账户用途标签提取技术

  • 时间:2023-01-09
  • 来源:88858cc永利官网

咨见 | 基于自然语言处理的银行账户用途标签提取技术

银行账户是资金管理的重要组成部分,是资金业务承载的主体。全面、精准的银行账户用途标签可以应用于账户画像生成、账户异常识别等业务场景,对于提升账户管理精细化水平、防范资金安全风险有非常重要的意义。基于自然语言处理的银行账户用途标签提取技术,能够将海量银行交易流水中非结构化的摘要数据标签化,形成全面、精准的银行账户用途标签数据,帮助资金管理人员全面了解银行账户的历史交易行为,及时洞察账户异常,精准定位交易风险。

一、建设背景

2022年1月,国务院国资委发布《关于推动中央企业加快司库体系建设进一步加强资金管理的意见》。《意见》要求,中央企业要把银行账户、票据管理、资金结算等操作类业务和资金集中、债务融资等运营类业务作为司库管理的重点,纳入信息系统,固化管理要求、规范操作流程,实现穿透监测;要加大5G、大数据、云计算、物联网、区块链人工智能等现代信息技术在司库信息系统建设中的创新应用力度等。

电网企业资金流动规模大、交易频繁,是典型的资金密集型企业。当前,电网企业在银行账户、资金安全管理方面仍存在精细化水平不足、监控规则不完善等问题。其中,在银行账户方面,由于账户交易量大,缺乏有效管理手段,无法感知账户的交易行为,容易形成管理盲区,存在一定的安全隐患。

二、解决方案和技术

为了提升电网企业银行账户管理精细化水平,防范资金安全风险,本方案应用自然语言处理技术,对企业海量银行交易流水的摘要数据,进行句法关系解析,智能提取交易标签和业务标签(如下图1所示),形成动态、完整、全面的资金账户用途标签数据,并通过对比历史和近期标签,发现账户异常行为,为银行账户提供有力的管理抓手。

咨见 | 基于自然语言处理的银行账户用途标签提取技术

咨见 | 基于自然语言处理的银行账户用途标签提取技术

图1 交易标签(左)和业务标签(右)

本方案的主要技术分为4部分:数据预处理、词库构建、语义结构提取及标签提取,如下图2所示:

咨见 | 基于自然语言处理的银行账户用途标签提取技术

图2 标签提取流程

2.1 数据预处理

本步骤主要是去重和剔除摘要中的噪声数据,比如日期、数字、英文及收款单位名称,清洗后的摘要只保留了关键信息,如下表1所示:

咨见 | 基于自然语言处理的银行账户用途标签提取技术

表1 数据预处理示例

2.2 词库构建

本步骤应用的词库有业务同义词库、业务动词库及业务关键字库,其中业务同义词库用于合并语义相同的交易业务,例如<差旅费、出差费>;业务动词库用于识别业务动作,例如退、预收、上缴等;业务关键词库用于精准判别和定位交易业务,例如费、税、金等,具体如表2所示:

咨见 | 基于自然语言处理的银行账户用途标签提取技术

表2 词库示例

2.3 语义结构提取

本步骤利用哈尔滨工业大学的LTP(Language Technology Platform)开源中文NLP系统对预处理后的交易摘要进行句法解析,包括分词、词性标注、命名实体识别、依存句法分析四个步骤,最终生成依存句法依赖关系树,如下图3所示:

咨见 | 基于自然语言处理的银行账户用途标签提取技术

图3 依存句法依赖关系树

根据银行流水摘要的特点,本方案主要用到关系包括核心词(HED)、主谓关系(SBV)、动宾关系(VOB)、并列关系(COO)及状中关系(ATT)。

2.4 标签提取

标签提取是本方案的核心步骤,包括交易标签提取、业务标签提取及未提取标签填充3部分。

(1)交易标签提取

根据句法依赖关系树,按规则(如下表3所示)提取交易标签,例如差旅费、购电费等主要用到了业务同义词库。

咨见 | 基于自然语言处理的银行账户用途标签提取技术

表3 交易标签提取规则

(2)业务标签提取

根据句法依赖关系树,按规则(如下表4、表5所示)提取业务标签,例如报销差旅费、预付购电费等,主要用到了业务动词库和业务关键词库。由于交易业务往往会带有明显的关键词,比如费、款、金等,因此业务标签提取规则将围绕这些关键字展开设计。

规则1:分词结果能模糊匹配关键词库中的词,模糊匹配的词记为H。将分词结果中的词与业务动词库中的词相匹配。挑选优先级最高的动词记为V,默认V为“付”。如果V是H的子字符串,业务标签为H;否则业务标签为V+H。

咨见 | 基于自然语言处理的银行账户用途标签提取技术

表4 业务标签规则1示例

规则2:分词结果能完全匹配关键词库中的词。完全匹配的词记为H,根据句法分析结果找到与H有ATT关系的词,记为ATTH。将分词结果中的词与业务动词库中的词相匹配。挑选优先级最高的动词记为V,默认V为“付”。如果V是ATTH+H的子字符串,业务标签为ATTH+H;否则业务标签为V+ATTH+H。

咨见 | 基于自然语言处理的银行账户用途标签提取技术

表5 业务标签规则2示例

(3)未提取标签填充

对于未能提取交易标签但提取了业务标签的摘要,将业务标签去除与业务动词库相匹配的词,即可获得交易标签,例如:<付牛羊肉款>转为交易标签<牛羊肉款>

对于提取了交易标签但未能提取业务标签的摘要,将交易标签加上摘要分词结果中与业务动词库相匹配的词,即可获得业务标签,例如:摘要为“光伏发电”,交易标签提取为<光伏费>,业务标签没有提取成功,根据本规则,业务标签填充为<付光伏费>。

三、建设成效

本方案应用于某省电网公司,使用6个月近百万的银行交易流水数据对模型的效果进行测试和评估,获得了96%以上F1值,证实了模型有效性和实用性,能够在电网企业进行推广应用。


作者:88858cc永利官网股份有限公司 李玫 丁德智 张允君 李国栋



咨见 第九期

“咨见”专栏自2022年1月起推出,汇聚88858cc永利官网咨询及实施专家团队智慧,解读最新政策,聚焦行业观点,分享优秀案例,输出数字企业、智慧能源方案及新兴科技研究等内容,形成“88858cc永利官网咨询智库”,分享88858cc永利官网专家们的智慧洞察,积累专业知识,谨与大家一起学习交流,共同成长。

咨见 | 基于自然语言处理的银行账户用途标签提取技术