Cepsa Qumica利用Amazon Bedrock提升产品管理的效率与准确性 机器学习博客

Cepsa Qumica通过使用Amazon Bedrock提升产品管控的效率和准确性

关键要点

Cepsa Qumica借助生成性人工智能和Amazon Bedrock有效提升产品管控团队的工作效率。实施的解决方案通过精确快速地解答合规性查询来节省时间,并增强了团队的工作效率。生成的答案提供相关文档的引用,确保用户获得额外的上下文支持。

本文由Vicente Cruz Mnguez、Guillermo Menndez Corral和Marcos Fernndez Daz共同撰写,于2024年8月2日发布于 人工智能 版块。

生成性人工智能AI正在迅速崛起,成为一种颠覆性的力量,能够改变各种规模及行业的企业。生成性AI使组织能够将其数据与机器学习ML算法的强大能力相结合,以生成类人内容、简化流程并释放创新潜能。与其他行业一样,能源行业也受到生成性AI变革的影响,开启了创新和效率的新机会。生成性AI迅速展现价值的一个领域是优化运营流程,降低成本并提升整体生产力。

在本文中,我们将解释Cepsa Qumica如何与合作伙伴Keepler共同实施一个生成性AI助手,以提升产品管控团队在解答与其销售的化学产品相关的合规性查询的效率。为加速开发,Cepsa Qumica利用了Amazon Bedrock,这是一项全面托管的服务,提供来自AI21 Labs、Anthropic、Cohere、Meta、Stability AI和Amazon等知名AI公司的高效基础模型FMs,通过单一API提供一系列功能,以安全、私密和安全的方式构建生成性AI应用。

Cepsa Qumica是线性烷基苯LAB制造领域的全球领导者,现排名第二于苯生产。Cepsa致力于2030年积极转型战略,通过使用可再生原材料、开发低碳产品以及将废物作为原材料,助力于其流程的脱碳化和可持续发展。

在Cepsa的数字化、IT、转型与运营卓越DITEX部门,我们致力于推动AI在各业务领域的民主化,以期成为另一个创造价值的杠杆。在这一背景下,我们认为产品管控是生成性AI创造价值潜力较大的领域之一。我们与 Keepler 合作,共同创建了为公司团队服务的第一款生成性AI解决方案。

安全、可持续发展与能源转型团队

Cepsa Qumica的安全、可持续发展与能源转型部门负责与公司制造的产品及其原材料相关的所有人类健康、安全与环境方面的事务。其工作领域包括产品安全、合规性、可持续性及客户服务。

安全、可持续发展与能源转型团队的一项职责是产品管控,负责市场产品的合规性管理。产品管控部门负责管理一大批合规性文件,其职责包括确定适用于公司产品组合中特定产品的各种法规,编制适用法规列表,并支持内部其他团队解决与这些产品和法规相关的问题。典型问题包括:“CMR物质的限制是什么?”、“我需要保留与甲苯销售相关的文件多少时间?”或“覆盖比例怎样计算?”这些问题所需的法规内容会随着时间的推移而变化,新的条款会被加入,部分条款会被废止。这项工作通常会占据团队大量时间,因此他们意识到有必要通过减少法规咨询的检索时间来创造价值。

DITEX部门通过初步分析团队的痛点,认为利用生成性AI技术加快合规性查询的解决是可行的。该分析基于非结构化数据法规文件和产品规格和结构化数据产品目录提出了查询。

pioneer加速器下载安装

生成性AI的产品管控方法

大型语言模型LLMs通过从互联网抓取的大量信息进行训练,捕获来自多个领域的广泛知识。然而,它们的知识是静态的,取决于预训练阶段使用的数据。

为克服这一局限,我们决定采用检索增强生成RAG方法,向LLMs提供从外部数据源提取的相关信息,以提供最新数据,无需重新训练模型。这种方法非常适合法规快速更新的场景,因为法规常常会有频繁的修订和新规发布。

此外,基于RAG的方法使文档搜索用例能够快速原型设计,使我们能够在几周内构建基于化学物质法规信息的解决方案。

我们构建的解决方案基于四个主要功能模块:

输入处理 输入的合规PDF文档进行预处理,以提取相关信息。每个文档被分割成若干块,以便于根据语义进行索引和检索。嵌入生成 使用嵌入模型将每个块的语义信息编码成嵌入向量,并存储在向量数据库中,以实现用户查询的相似性搜索。LLM链服务 该服务通过合适的提示调用LLM模型并生成返回给用户的响应。用户界面 通过对话式聊天机器人与用户进行互动。

我们将解决方案分为两个独立模块:一个用于批处理输入文档,另一个用于通过运行推理来回答用户查询。

批处理输入模块

批处理输入模块执行合规性文件和产品目录的初始处理,生成后续用于回答用户查询的嵌入。以下图展示了该架构。

批处理输入模块完成以下任务:

使用 AWS Glue,一项无服务器数据集成服务,定期运行提取、转换和加载ETL作业,从 Amazon S3 提取输入原始文档和产品目录,这是一个提供行业领先扩展性、数据可用性、安全性和性能的对象存储服务。AWS Glue作业调用 Amazon Textract,一项机器学习服务,用于自动提取扫描文档中的文本、手写内容、布局元素和数据,以处理输入PDF文档。数据提取完成后,作业会进行文档分块、数据清理和后处理。AWS Glue作业使用Amazon Bedrock生成每个文档块的向量嵌入,采用 Amazon Titan文本嵌入模型。使用 Amazon Aurora PostgreSQL兼容版本,一个全面托管、符合ACID标准的关系数据库引擎,存储提取的嵌入,并启用了pgvector扩展以实现高效相似性搜索。

推理模块

推理模块将用户查询转化为嵌入,从知识库中检索相关文档块,利用相似性搜索功能,向LLM提供查询及检索到的块以生成上下文响应。以下图展示了该架构。

推理模块实现以下步骤:

用户通过一个静态网站进行互动,该网站存储在Amazon S3中,通过 Amazon CloudFront CDN提供,使用 AWS Cognito 进行客户身份访问管理。查询通过在 Amazon API Gateway 中定义的REST API发送到后端,该服务简化了开发者创建、发布、维护、监控和保障API的工作,并通过 API Gateway私有集成 实现。后端通过在 AWS Fargate 上运行的LLM链服务来实现,Fargate是一种无服务器、按需付费的计算引擎,允许用户专注于构建应用,无需管理服务器。该服务协调不同LLM的交互,使用 LangChain 实现。LLM链服务调用Amazon Bedrock上的Amazon Titan文本嵌入来生成用户查询的嵌入。基于查询嵌入,从嵌入数据库中检索相关文档。该服务生成一个提示,其中包含用户查询和从知识库中提取的文档。提示被发送到 Anthropic Claude 20,模型的回答再返回给用户。RAG实施的注意事项

产品管控聊天机器人是在 Amazon Bedrock知识库 尚未普遍可用之前构建的。Amazon Bedrock知识库是一个全面托管的能力,帮助您实施从输入到检索和提示增强的整个RAG工作流程,而无需构建自定义集成到数据源并管理数据流。知识库管理初始向量存储的设置,处理嵌入和查询,提供源属性和生产RAG应用所需的短期记忆。

凭借Amazon Bedrock知识库,批处理输入和推理模块的第34步实施可以大大简化。

挑战与解决方案

在本节中,我们讨论了在系统开发过程中遇到的挑战以及我们采取的决策来克服这些挑战。

数据预处理与分块策略

我们发现输入文档包含各种结构复杂性,这在处理阶段造成了挑战。例如,某些表格包含大量信息,几乎没有上下文,仅有的上下文常常只显示在表格的顶部。这可能会导致在检索过程中缺乏上下文,从而使用户查询难以得到正确答案。

此外,有些文档附件与文档的其他部分或甚至其他文档相关联,导致数据检索不完整,从而生成不准确的答案。

为了解决这些挑战,我们实施了三种缓解策略:

数据分块 我们决定使用较大的块大小,且存在显著重叠,以在摄取时提供每个块最大限度的上下文。但是,我们设定了一个上限以避免丧失块的语义意义。模型选择 我们选择了一种具有大上下文窗口的模型,以便生成考虑更大上下文的响应。Anthropic Claude 20在Amazon Bedrock上的100K上下文窗口提供了最精确的结果。该系统建设于Anthropic Claude 21或Anthropic Claude 3模型系列在Amazon Bedrock上可用之前查询变体 在从数据库检索文档之前,使用LLM生成用户查询的多个变体。所有变体的文档在提供给LLM查询时会去重复化。

这三种策略显著提升了RAG系统的检索与响应准确性。

结果评估与流程优化

评估LLM模型的响应是另一个挑战,这在传统AI用例中是不存在的。由于输出的自由文本特性,很难根据某一指标或KPI评估和比较不同的响应,因此在大多数情况下需要进行人工审核。然而,人工过程耗时且不具可扩展性。

为了减少缺陷,我们与经验丰富的用户一起创建了基准数据集,其中包含以下信息:

需要结合来自不同文档数据的代表性问题每个问题的真实答案找到正确答案的源文档、页码和行号的引用

然后,我们实施了自动评估系统,基于Anthropic Claude 20在Amazon Bedrock上,以及不同的提示策略来评估文档检索和响应生成。这种方法使得迅速并自动化地调整不同参数成为可能:

预处理 尝试了不同的块大小和重叠尺寸检索 测试了几种不同复杂程度的检索技术查询 使用在Amazon Bedrock上托管的不同LLM进行测试:Amazon Titan文本首选Cohere Command v14Anthropic Claude即时版Anthropic Claude 20

最终解决方案由三个链组成:一个用于将用户查询转换为英语,一个用于生成输入问题的不同变体,另一个用于撰写最终响应。

实现的改进和下一步

我们为安全、可持续发展与能源转型团队建立了一个对话界面,帮助产品管控团队更高效地获取合规性查询的回答。此外,生成的答案提供了相关文档的引用,确保团队能够双重验证响应,并在需要时找到额外的上下文。以下截图展示了对话界面的一个例子。

Cepsa Qumica利用Amazon Bedrock提升产品管理的效率与准确性 机器学习博客

通过该解决方案,产品管控团队识别出了一些定性和定量的改进:

查询时间 下表总结了根据查询复杂性和用户资历节省的搜索时间考虑到所有搜索时间已降低至1分钟以内。复杂性节省时间分钟初级用户低33中925高28答案质量 实施的系统提供了额外的上下文和文档引用,供用户用以提升答案质量。运营效率 实施的系统加快了合规性查询的流程,直接提升了部门的运营效率。

在DITEX部门,我们当前正在与Cepsa Qumica的其他业务领域合作,寻找类似的用例,以帮助创建一款企业范围内的工具,使之复用这一首创的组件,并在各业务功能中普及生成性AI的使用。

结论

本文分享了Cepsa Qumica与合作伙伴Keepler如何实施一个使用Amazon Bedrock和RAG技术的生成性AI助手,处理、存储和查询与产品管控相关的知识库。结果显示,用户在利用该助手解决合规性查询时,节省了多达25的时间。

如果您希望您的企业开始使用生成性AI,请访问 AWS上的生成性AI 并与专家联系,或在 PartyRock 快速构建生成性AI应用。

作者介绍

Vicente Cruz Mnguez是Cepsa Qumica数据与高级分析的负责人,拥有超过8年的大数据和机器学习项目经验,涵盖金融、零售、能源和化工行业。他目前领导Cepsa Qumica数字化、IT、转型与运营卓越部门的团队,专注于推动企业数据湖的建设,并促进数据分析、机器学习项目及商业分析的民主化。从2023年起,他还在致力于扩大生成性AI在各部门的使用。

Marcos Fernndez Daz是Keepler的高级数据科学家,拥有10年的端到端机器学习解决方案开发经验,涵盖预测维护、时间序列预测、图像分类、目标检测、工业流程优化及联邦机器学习。其主要兴趣包括自然语言处理和生成性AI。工作之余,他也是一位旅行爱好者。

Guillermo Menndez Corral是AWS能源和公共事业解决方案架构的高级经理,拥有超过18年的软件产品设计与构建经验,目前帮助AWS的能源行业客户利用云技术进行创新和现代化。

加载评论

发表评论

订阅我们的邮箱