对于身处垂直领域的公司来说,大模型在实际的业务场景中是否如“万金油”般好使?换言之,企业要如何在应用层面最大程度发挥大模型的作用,为业务提质增效?联易融在与一家外资银行合作的项目中,开始部署大模型,在供应链金融科技这一垂直赛道里率先积累了大模型应用的相关经验。
AI如何“读懂”不同类型和版式的单据?
在这一合作项目中,联易融面对的主要挑战是审单,难点在于:
其一,业务场景复杂且挑战性极大,涉及与银行内部的多个业务部门;
其二,需处理的单据类型多达20种,每种单据都有独特的格式和要求。这些各式各样的单据里,部分单据类型的格式甚至超过1000种。
据联易融的AI算法负责人分析,传统的文档解析流程涉及多种算法组件的组合,这种方法在处理标准化文档时效率很高。但随着单据类型增至近百种时,这种方法的性能衰减效应十分明显。由于每种单据的格式、结构和内容都有细微的差异,算法工程师要根据不同的单据类型和单据样式,精心选择和组合适合的组件,而在实际层面操作上这无疑是一项艰巨且繁琐的任务,不仅影响项目迭代,也无法满足市场和客户的需求。
联易融的AI解决方案不仅要支持合同这类的文本解析,同时还要支持与合同相关的发票、结算单等数十种单据的解析。而一般的大模型没有办法支持种类繁多的文本解析。
在这样的场景下,联易融在部署大模型的过程中,要如何使AI能够适应并“读懂”不同类型和版式的单据?联易融结合视觉模型的高效图像处理、语言模型的深度文本理解以及信息交互模块的数据整合功能,开发更为强大和灵活的模型,创造一个综合性的AI解决方案来应对文档解析的挑战,并将其命名为LDP(Linklogis Document Parsing)。
LDP旨在处理式样繁多的文档类型,它主要经过以下两个方面的技术应用和优化:
第一,LDP作为一个多模态模型,能够对图像直接进行处理,理解文档的内容、版式、布局以及部分要素的相对位置信息等,它可以将信息融合之后进行联合推理,得到精准解读;
第二,为了确保LDP模型能够精准“读懂”、理解和分析多样化的复杂文档结构,联易融的算法工程师基于近200万张来自各个专业领域的文档图片对LDP进行了重新训练。这些训练数据涵盖了合同、商业发票等多种关键文档类型,确保了LDP在应用中具有广泛适用性和高效性。
LDP在复杂文档解析领域带来突破
目前LDP具备高度的灵活性、精确度和泛化性,在供应链金融这类垂直业务场景中也得到比较好的应用,也表现出显著的文档解析效果。使用LDP,整个文档解析流程变得更加简洁高效。基于用户提供的字段需求,算法工程师在模型训练的时候制定相应的提问(Prompt),模型即可快速生成相应的答案。模型还能处理多种文档任务,包括但不限于要素内容和位置提取、印章识别、文字识别等。
在使用体验上,以最常见的合同解析场景为例,使用LDP之前,审核一份材料需要一个比较专业的金融背景工作人员,需要大概15分钟左右。使用后,可能只需要两到三分钟。
在LDP框架下,算法工程师只需开发和维护一个基础模型。这意味着对于不同类型的文档解析任务,无需分别开发更多的模型,模型的迭代和优化也更为简单,只需增加针对特定图片和Prompt的数据进行训练。
从性价比上来考虑,尽管LDP模型的训练和推理成本相对较高,但单次调用成本低至几分钱,在成本效益和功能性上都展现出了强大的竞争力,可以说为复杂文档的处理提供了一个高效且经济实惠的解决方案。
LDP框架带来了文档解析领域的重大突破,但也存在目前大模型们都有的局限性——“模型的幻觉问题”,具体表现为模型在处理有噪声干扰的文档时可能“过度联想”,产生不确定性和误差。为了解决或减少模型的“幻觉”,LDP的算法工程师正在运用检索增强生成(RAG,即Retrieval-Augmented Generation)、负样本微调、提示调优(Promot Tuning)、精标数据集等方式对模型进行改进。
联易融的AI算法负责人表示,联易融融合先进技术和创新策略推出LDP模型,不仅展示了在处理复杂文档及适应不同业务需求的强大能力,更证明了大模型技术在供应链金融场景中有着巨大应用潜力。这也指向了一个未来的发展趋势:随着不同行业的业态更迭,大模型将在提升模型泛化能力、准确度等性能上不断精进。