专注 高精密,高要求,挑战性制造技术专业 机械加工,cnc数控,精密零件,模具加工厂家
热门关键词:

基于金融大模型的智能投行建设研究

时间: 2024-03-03 来源:精密机加工

产品详情

  辛治运:清华大学计算机科学与技术专业博士,现任广发证券股份有限公司副总经理、首席信息官,广发控股香港董事。担任全国金融标准化技术委员会证券分技术委员会委员、中国证券业协会投资银行委员会副主任委员。曾就职于中国证监会信息中心、机构监管部综合处、审核处,安信证券股份有限公司。

  随着科技的持续不断的发展,人工智能技术正逐渐渗透到各个行业,并对传统的金融领域产生了深远的影响。其中,智能投行是金融领域中的一个重要创新,具有非常非常重要的意义。广发证券智能投行建设,紧紧围绕注册制下投行业务的核心痛点展开,进行体系化的系统规划与建设,主要为实现以下业务目标:

  大幅提高投行业务的效率。传统的投行业务需要大量的人力投入,而智能投行则可通过机器学习和自然语言处理等人工智能技术,实现对大数据的快速分析和处理,从而节约时机和人力成本。

  提升投行业务的准确性和可靠性。人工智能技术能处理复杂多变的金融数据,通过对历史数据的分析和模型训练,提供更准确的数据支撑。

  促进投行业务创新和市场发展。智能投行利用人工智能技术,可以挖掘并分析大量的金融数据,发现市场的潜在机会和隐含规律,推动投行业务机会挖掘。

  增强投行风险管理能力。以往投行业务风险管理主要是依靠人工判断和经验知识。智能投行能快速识别和评估风险,并实时监控市场变化,提高风险管理的准确性和有效性,降低金融风险。

  由此可见,智能投行建设能大大的提升业务效率,提升业务的准确性和可靠性,推动业务创新与市场发展,并增强风险管理能力。面对一直在变化的金融市场和激烈的竞争环境,金融机构应积极跟进智能投行的发展的新趋势,加强技术创新和落地应用,以适应金融业务的新变革。

  广发证券以实际业务场景为依据,不断探索智能投行赋能业务转型,建设了一系列智能投行系统。为提升投行执业质量水平,建设线上化、集中化、自动化、智能化的智能函证管理系统,提高函证管理和增信能力,并构建投行业务智能辅助机器人实现尽职调查工具箱,有效提升尽职调查自动化水平且稳定高效、降低人为操作风险;为提升风险管控能力建设智能银行流水核查系统,通过对流水文件的信息提取和数据分析,充分挖掘企业经营画像,识别企业流水造假及财务舞弊行为,并进一步对企业经营过程中异常数据来进行风险预警;为提升投行信息公开披露质量建设智能文档核查系统赋能投行文档的智能审核,提升投行人员的工作效率并避免文档低级错误;为提升投行估值定价能力探索一套企业估值分析系统,沉淀研究行为和数据,提高研究效率和管理效率,辅助企业估值和投资价值判断。然而,智能投行系统的建设和应用仍处于初级阶段,存在一系列的挑战和限制。

  第一,智能投行系统要大量高质量的数据支持。投行底稿数据是大量的非结构化文档数据,数据涉及到多重维度和复杂的关联关系,要想应用这一些数据需要对大量的非结构化数据来进行收集和整理。另外,监督学习需要大量标注数据,成本昂贵。而语料库规模在迅速增加,标注跟不上语料爆炸的节奏。

  第二,智能投行系统依赖手工特征和规则,工程量大且语言相关。模型对常识知识掌握和语义推理能力弱,处理未见数据的泛化能力较弱。不同任务需要训练专门的模型,重复劳动多,也限制了多任务联合训练带来的好处。

  大模型的出现带来了准确率的提升、泛化能力的增强、语义理解的改进、训练速度的提升以及拓展应用领域等颠覆性变革,这些变革提供解决以上问题新的范式。本文将研究大模型赋能投行文档智能一体化处理方案建设。

  从统计学习、机器学习、深度学习,再到今天的大模型,人工智能已然成为技术革命浪潮的推动力。一般来说,金融行业近几年来经历了两次AI技术变革浪潮:

  第一次,决策式AI。决策式AI(即判别式AI)一般来说是要学习数据中的条件概率分布,在输入与输出之间建立映射函数。即学习处于什么样的前提下(特征空间),一个样本属于某种类别的概率。

  第二次,生成式AI。与决策式AI不同的是,生成式AI则是学习数据中的联合概率分布,通过无监督“自回归”的方式学习样本特征并预测概率,一般具备明显的先后序列的特征。生成式AI应用十分普遍:营销创意、文案生成、知识问答与推理、文档智能抽取、智能生成、智能核查等。实际上,今天我们讨论的大模型一般都属于生成式AI这个范畴。

  2022年11月,OpenAI推出ChatGPT3.5,其热度以迅雷不及掩耳之势席卷全球,因为大量级参数给模型带来了“涌现”的能力,并在业界所有公开测试结果里展现出传统AI模型不能够比拟的精度。大模型证明了自身“划时代”的能力,并颠覆了所有的行业的技术变革和创新路径,成为了新一代生产力,并由此展开一系列围绕大模型的生态建设,包括算力基础设施、预训练大模型、行业应用,并出现微调+提示工程的新范式,其盛况亘古未见。那么对于金融业而言,大模型发展路径又如何呢?

  建设金融基础大模型基座,然后企业可基于之上开发契合企业的各类型应用场景。如图1所示:

  以往,基本上每项下游任务都需要分别建立AI模型,模型之间可复用性和迁移性非常差,因此导致运营维护成本高。大模型则能够下游需要的各类能力进行统一和聚合,包括信息提取、文稿写作、智能问答、多模态生成、分类预测等,管理难度极大地下降。

  基于金融大模型基座,业务场景根据其应用目标和流程拆解后,可以基于一个大模型的下游任务能力快速适配,从而提升了场景开发的效率。

  大模型带来“Fine-Tuning+Prompt”的新范式,通过提示工程,就可以“激发”大模型能力,从而让其适配下游任务。此过程中,无需改变模型参数,也无需写代码,具备一定的业务知识和方法论即可,这在以往也是没办法想象的。

  利用垂域数据为金融领域构建应用,以场景应用为突破口在细致划分领域加强化自己的“护城河”。其总体趋势为从“感知智能”跨越到“认知智能”:

  当前已经处于大模型主导的认知智能阶段,其重点任务包括对非结构化文档进行原子化拆解和抽取、智能问答与多轮对话推理、机器阅读总结摘要、文档生成、文档核查等。那么如果聚焦到证券行业会有怎样的应用趋势呢?

  如图3所示,其实金融大模型在证券行业的应用发展的新趋势可以分成2个阶段来看:弱监管和强监管。当然这两者只是相对而言,实际上都要受到证监会、交易所等相关监督管理的机构的监督和管理。

  大模型在证券业的落地应用首先发生在弱监管领域,包括研报检索、研报观点聚合、研报知识问答、投行政策库查询、投行底稿知识问答、智能客服、代码生成、资讯生成等。为何大模型会首先应用在这样的领域呢?因为大模型本身会有“幻觉问题”,且即使在这里领域大模型“犯错”了,其受到的“惩罚结果”相对来说还是比较轻,而人工控制力度也相对充足。

  在强监管域,行业还是保持相对谨慎的态度,处于试错求证的阶段居多,但也是未来不可逆转的落地趋势,因为此领域恰恰是证券公司的主营业务,基于大模型来降本增效是永恒主题。其应用可包括投行文档智能抽取、智能生成、智能核查等。

  落地金融大模型的研究,其实涉及到大模型选择、算力配置、下游任务设计等每个方面。广发证券应用金融大模型,研究投行文档智能一体化处理方案。具体思路如下:

  基于大模型底座建设投行文档智能抽取、智能生成、智能核查能力。智能抽取能力构建投行数据底座,提供统一的结构化数据来源,支撑投行业务文档智能生成和智能核查。打造从数据到投行业务文档生成、核查的全生命周期工具链平台。

  本次场景研究主要是基于投行领域常见的公告数据来进行提取,从公告中提取董事会决议。在此之前需要对模型进行微调,让其获得对应“语感”。其这样的一个过程中要做大量的语料工程工作,其大体流程如下:

  其中比较核心的就是在tokenize时,做好向量分割、向量嵌入和计算。此外存在公告token超出的模型输入限定的情况,因此还要做好token拼接工作,保障大模型能够正确理解同一份公告的上下文语义。

  接下可面向下游提取任务设计提示工程,让大模型能够正确提取有关信息,以公开数据《松霖科技:关于第三届董事会第一次会议决议公告》为例:

  【你是一个提取结构化信息的机器人,你的目标是匹配输入与输出中每个描述相符合的信息,并按JSON格式输出结构化提取信息。在提取信息时,不要添加任何没再次出现在输出中显示的属性。除了提取的信息外,不要输出任何内容,不要添加任何澄清信息,不要添加任何不在模式中的字段。如果文本包含架构中未出现的属性,请忽略它们。】

  图6为部分样本的提取测试结果,其提取准确率达到了95%。实际上,本次测试样本为200份公告,整体准确率达到85.6%以上。相比于传统技术,标注工作量极大地减少,且能在极短的时间内就提升模型精度,可落地性非常好。

  除了抽取任务,大模型还可以用在撰写生成的场景。实际上,投行业务涉及非常繁重的申报材料编制工作,包括债券募集说明书自动撰写、ABS计划说明书撰写、公告撰写等。在大模型出来之前,市面上也有智能撰写相关的产品,但对整个证券行业落地依旧很的少。究其原因,申报材料本身内容存在主观性,且编写业务逻辑相对复杂,因此大模型在此方面的应用还是非常少。基于审慎原则,更多是先把撰写生成能力用于制式文档或非制式文档的部分内容生成。如下为部分撰写生成场景:

  对评级报告而言,其涉及主观部分和客观部分,智能生成主要是集中的客观部分。如下图所示:

  可以看到像公司声明、债项情况、行业及区域经济环境等章节内容,模板化程度高,可全部交给大模型生成;而像主体概况、经营分析等章节内容相对复杂,依赖人工分析才能输出,因此大模型部分帮助。这里面还有一个核心的工作就是:大模型需要从募集说明书、审计报告、征信报告等非结构化文档提取相关财务、征信评级、债项期限等填充到评级报告。

  如上所示,大模型基于抽取能力,自动在评级报告中对应位置填充有关信息(以双花括号和绿色来标记),左侧的“主体基础信息”、“本次评级模型打分表及结果”也从相关文档或评级系统同步过来。至于经营分析、主体概况等依赖人工总结的,则还是由人工来处理。

  总而言之,大模型在制式文档方面会起到非常大的作用,基本上可以让机器来全部生成。但在非制式文档方面,更多是起到抽取信息填充的作用,或辅助生成分析话术供人工修正。

  证券投行业务包括IPO、债权融资、并购重组、资产证券化、股权融资、新三板挂牌等,每个业务条线都涵盖大量的文书工作并受到强监管。特别是对非结构的数据处理和整合,这部分工作是影响各条线业务执行效率和效益的重要的条件。比如投行业务中的IPO工作,会涉及大量底稿工作,包括招股说明书、发行公告、审计报告、本次发行申请及授权文件、发行保荐书等文书对象的编排制作,还是会涉及银行流水核查、尽职调查、财务反粉饰等审查环节。借助了金融大模型能力实现智能核查,则重构和优化业务流程,缩短流程周期,提升人效。智能核查内容有但不限于如下:

  实际上,大模型更多的工作在于底稿数据提取(包括审计报告、财务报告、上市保荐书、公司章程、资质证明、专利证书等),核查规则设计更多依赖于规则引擎。大模型能够极大提升对底稿数据、尽调数据等相关指标的提取,再输送给规则引擎,从而保障了智能核查的质量。从这个层面来看,大模型要做的工作和智能抽取无异。

  还有一部分就是错别字和语义纠错层面,即文书规范层面。这方面大模型具备无可比拟的优势,因为它学习了大量“通才”知识,又专修了金融领域的“专才”知识,知识面非常广,能够更准确的判断出申报材料中是不是真的存在错别字或语义不顺等情况。下面来测试说明:

  本次测试集约1395条,包含了如上所罗列的错误类型。部分样例间下图。“原文”一列为正确内容,“错误原文”一列为包含错误的内容,并用黄色高亮区别。

  对比两者的测试结果,能够准确的看出基于大模型测试的F1值大幅度领先,其在文书规范核查层面有相当的好的成效。

  未来,广发证券将围绕金融科技发展的策略,持续打造投行数智化体系,探索金融大模型在投行领域的应用,以金融大模型为基座全面升级智能投行系统,构建智能抽取、智能生成、智能核查等能力,赋能投行文档智能一体化处理方案建设。有效支撑投行全业务品种、全生命周期的数智化管理,提升在注册制下的投行执业质量、风险控制水平、信息公开披露质量。

标签:

相关产品/ RELATED PRODUCTS