如何在生成性AI应用中实施有效的数据授权机制

重要重点

在本文中，我们将探讨如何在生成性AI应用中有效实施数据授权机制，以保障使用敏感数据时的安全性。我们将深入讨论数据治理的框架和最佳实践，尤其是如何在不同数据源中运用正确的授权模型，并介绍如何在架构中整合数据授权机制。本篇的重点有：数据治理对于生成性AI的重要性。敏感数据的主要储存位置及其授权策略。如何在RAG (检索增强生成)中实施数据授权。

在本文的第一部分中，我们详述了使用敏感数据在生成性AI应用中的潜在风险及应对策略。接下来我们将继续探讨数据治理的细节，并基于此展开有关数据授权模型的探讨。

数据治理与LLM

在本部分中，我们会更深入地讨论数据治理作为整体数据安全环境的一部分。许多传统工作负载依赖于结构化数据存储，例如关联型数据库，而生成性AI应用的主要好处之一是能够从大量结构化和非结构化数据中获取洞察。过去，对于非结构化数据的访问仅限于特定应用，授权通常限于特定的主体。在这样的架构中，前端应用会决定是否授权用户访问数据，并通过单一的 AWS IAM 角色来访问后端数据源。

透过AWS的数据治理服务，企业可以确保他们的数据可视性、访问控制、质量保证和所有权问题得到妥善处理。这些服务包括 AWS Glue、Amazon DataZone 和 AWS Lake Formation，可以帮助合理管理数据以用于生成性AI应用。

敏感数据的集成

那么，应该如何安全地将敏感数据融入生成性AI应用中呢？以下是潜在的敏感数据存放位置：1 LLM的训练和微调。2 向量数据库。3 工具和功能调用。4 代理的使用。

实施有效的数据授权机制以保护您在生成性 AI 应用中使用的数据 LLM的训练和微调

敏感数据可能存在于生成性AI应用中的LLM自身。大多数基础模型和LLM由第三方组织开发，这些组织通常不会披露模型训练所使用的数据来源。虽然企业可能会用敏感数据来训练自己的LLM，或对现有模型进行微调，但授权决策始终由应用做出，而非LLM。

重要的是要注意，不应依赖于负责任的AI机制例如，无害内容筛选，因为这些筛选机制并未将身份作为过滤的依据。

检索增强生成RAG

另一个敏感数据所在的地方是向量数据库。RAG允许生成性AI应用通过组织的私有数据来源来获取上下文信息，从而输出更相关和准确的回应。当你使用RAG时，应在将上下文信息发送到LLM之前对数据进行授权。可以通过在生成性AI应用或向量数据库中实施授权来控制数据集的访问权限。AWS的 Amazon Bedrock Knowledge Bases 和 Amazon Q Connectors 提供相应的实施支持。

工具和功能调用

在生成性AI应用中还使用了功能或工具调用的模式。当LLM认为需要工具生成回应时，它会要求应用调用该工具。这时，应用需对LLM返回的参数进行安全检查并做出授权决策。

代理的运用

代理模式让多个不同数据来源协同工作。代理可根据主体输入和提供给模型的数据来帮助主体完成多步操作。设计和配置代理时，必须考虑到不同数据来源的授权背景。

加速器安卓下载免费

RAG的数据过滤和授权范例

假设某企业的生成性AI应用希望让内部小组检索有关政策和历史信息，这时，可利用RAG结构。利用亚马逊S3作为向量数据库的资料来源，确保只让授权用户查看各自部门的敏感信息。

具体来说，透过发送包含适当元数据的API请求来过滤结果，将只返回贵公司允许的数据。进一步的信息已在AWS的 Amazon Bedrock知识库中详细说明。

结论

在生成性AI应用中正确实施数据授权机制是确保使用敏感数据安全的基础步骤。基于不同的数据来源，实施适合的授权模型至关重要，没有一种适用于所有情况的解决方案。在此，我们探讨了如何运用正确的数据授权模型，以便在生成性AI应用中有效使用敏感数据。

如需了解更多生成性AI安全的内容，请查看 AWS安全博客和其他相关资源。如果你对本文有任何反馈，或对内容有疑问，欢迎在下方的评论区留言，或联系AWS支持。