新闻动态

Our News

在 Amazon Bedrock 中开始跨区域推理 机器学习博客

新闻动态

在 Amazon Bedrock 中开始跨区域推理 机器学习博客

2026-01-27 13:24:40 9

跨区推理在 Amazon Bedrock 的入门

主要要点

Amazon Bedrock 现已提供跨区推理功能,帮助开发者在全球范围内自动路由请求,提高可用性和性能。该功能使开发者不再需要手动预测流量变化,并以更高的效率应对流量高峰。客户可通过简单的 API 使用此功能,并借此提高应用程序的可靠性和性能。

随著 生成性 AI 解决方案 的兴起,各行各业正在经历变革,许多组织正在利用基础模型解锁前所未有的机会,这也催生了对模型推理能力的需求激增。许多 Amazon Bedrock 的用户希望能够扩展他们的全球应用,并需要更多的突发容量来处理突如其来的流量高峰。目前,使用者可能需要自行设计应用程序以处理流量高峰情境,这可能涉及复杂的技术,如在 AWS 地区之间进行客户端负载平衡。然而,需求的动态性难以预测,增加了操作开销,并引入潜在的故障点,可能会阻碍企业实现真正的全球韧性和持续的服务可用性。

今天,我们高兴地宣布 跨区推理 的正式提供,这是一项强大的功能,允许自动跨区推理路由请求至 Amazon Bedrock。这为使用按需推理模式的开发者提供了一个无缝的解决方案,可以管理应用程序的可用性、性能和韧性,提高应对流量高峰的能力。通过启用此功能,开发者无需再花费时间和精力预测需求波动。相反,跨区推理动态地将流量路由到多个地区,确保每个请求的最佳可用性,并在高使用期间提供更流畅的性能。此外,此能力在可能的情况下优先考虑连接的 Amazon Bedrock API 源/主要地区,帮助最小化延迟,提升响应速度。因此,客户可以提高应用的可靠性、性能和效率。

接下来,我们将深入探讨此功能,讨论以下内容:

跨区推理的主要功能和优点如何开始使用跨区推理定义和利用此特征的代码范例如何考虑迁移到跨区推理主要注意事项本功能的最佳实践结论

让我们深入了解!

主要功能和优点

客户的一个关键需求是能够管理多种生成性 AI 工作负载和不同请求形状下的流量突发模式。跨区推理的一些主要功能包括:

功能描述利用多个 AWS 地区的容量使生成性 AI 工作负载能够根据需求扩展。与现有 Amazon Bedrock API 兼容无需额外的路由或数据传输成本,按原地区的每个令牌价格计费。提高对流量突发的韧性用户可以专注于核心工作负载和撰写 Amazon Bedrock 支持的应用逻辑。可选择预配置的 AWS 地区集根据您的需求定制的地区选择。

以下图片将帮助了解此功能的工作原理。Amazon Bedrock 会即时为每个通过跨区推理发出的请求做出决策。当请求到达 Amazon Bedrock 时,系统会在请求源地进行容量检查,若有足够容量则满足请求;否则,系统会进行第二次检查,确定是否有其他区域具有处理该请求的能力,然后将请求重新路由到该区域,再获取结果。这种容量检查的能力之前并不提供给用户,因此他们必须在收到错误后手动检查每一个选择的区域并重新路由。而典型的自定义路由实现可能依赖于轮询机制,对区域可用容量没有洞察。借助此新功能,Amazon Bedrock 实时考虑流量和容量的各个方面,以全面管理的方式代替用户做出决定,无需额外成本。

风驰加速安卓版官网

需要注意的几个要点:

跨区数据传输使用 AWS 网络骨干,而非互联网或 VPC 对等连接,从而确保执行的安全和可靠。此功能将首先尝试从您的主要地区服务请求。在高流量、瓶颈情况下,将请求路由至其他区域进行负载平衡。您可以通过跨区推理访问一组选定的模型,这些模型在所有相关区域中均可用,即便在您的主要地区无法使用某些模型,仍然可在配置的区域集内使用。您可以利用 Amazon Bedrock 模型调用 API (InvokeModel 和 Converse API) 使用此功能。您可以选择通过相应的模型标识符直接使用基础模型,或使用跨区推理机制来使用该模型。通过此功能执行的任何推理将考虑所有预配置区域的按需容量以 maximize 可用性。重新路由时将增产额外的延迟,在我们的测试中,延迟增加为两位数毫秒。当使用此功能时,您所使用的特定模型的所有条款,包括任何最终用户许可协议,仍然适用。使用此功能时,您的 吞吐量可达到在推理配置中分配配额的两倍。增加的吞吐量仅适用于通过推理配置执行的调用,如果选择在地区内调用模型,则仍适用常规配额。要查看按需吞吐量的配额,请参考 Amazon Bedrock 的配额 的 Runtime Quotas 部分,或使用 Service Quotas 控制台。

次要区域的定义

现在让我们深入探讨几个重要方面:

什么是次要区域? 在这次发布中,您可以选择美国模型或欧洲模型,每个模型将包含来自这些地理位置的 23 个预设区域。包含哪些模型? 随著此次发布,我们会提供 Claude 3 系列模型Haiku、Sonnet、Opus及 Claude 35 Sonnet。我们可以使用 PrivateLink 吗? 是的,您将能够利用私有链接,并确保流量通过您的 VPC。与此功能一起还可以使用 Provisioned Throughput 吗? 目前,此功能仅适用于按需推理,无法应用于 Provisioned Throughput。何时需重新路由工作负载流量? 跨区推理将首先尝试通过主要区域服务请求与 Amazon Bedrock 端点相连的区域。当流量模式上升且 Amazon Bedrock 检测到潜在延迟时,流量将主动转移到次要区域进行服务。跨区推理的日志在哪里记录? 日志和调用仍将在请求来源的主要区域和帐户中记录。Amazon Bedrock 将在日志中输出指示,显示实际处理请求的区域。

以下示例显示的流量模式地图并非按比例绘制:

客户在 euwest1爱尔兰有一个工作负载,可能会选择 euwest3巴黎和 eucentral1法兰克福作为一对次要区域;而在 useast1维吉尼亚州北部的工作负载则可能选择 uswest2俄勒冈作为单个次要区域,反之亦然。这将使所有推理流量保持在美国或欧盟境内。

跨区推理的安全性与架构

以下图显示了一个跨区推理请求的高层架构:

操作流程从传入主要区域的推理请求开始,针对按需基准模型进行容量评估,在主要区域和次要区域列表中创建一个区域容量列表。确定可用容量最多的区域例如 eucentral1法兰克福为下一目标。请求被重新路由至法兰克福,并使用 AWS 骨干网确保所有流量始终保持在 AWS 网络。请求可以直接穿过次要区域的 Amazon Bedrock 服务标准 API 入口点,并传至运行时推理服务,然后通过 AWS 骨干返回至主要区域,再返回至请求者,和常规推理请求一样。如果所选区域的处理失败,则会尝试在区域容量列表中可用容量最高的下一个区域,例如 euwest1爱尔兰,接著是 euwest3巴黎,直到所有配置的区域都被尝试。如果在次要区域列表中没有任何区域能够处理推理请求,则 API 将返回标准的限流响应。

在 Amazon Bedrock 中开始跨区域推理 机器学习博客

网络和数据记录

AWS 之间的流量传输,例如区域对区域的流量包括边缘位置和直接连接路径,将始终通过 AWS 拥有和运营的骨干路径,这不仅减少了常见的威胁例如常见的利用攻击和 DDoS 攻击,还确保所有内部 AWS 之间的流量仅使用受信任的网络路径。这与区域间和区域内路径加密及路由政策执行机制相结合,所有这些都使用 AWS 的安全设施,这种执行机制的组合有助于确保 AWS 之间的流量将永远不使用非加密或不受信任的路径,这样一来所有跨区推理请求将始终保留在 AWS 骨干中。

日志条目将仍然在原始源区域中记录到 Amazon CloudWatch 和 AWS CloudTrail 中,并且不会在重新路由的区域中生成额外日志。为了表明发生了重新路由,对应事件在 AWS CloudTrail 中的条目将包括以下额外数据。事件将包含 additionalEventData 元素,并有 inferenceRegion 键指定请求处理的区域。如果请求是在主要区域中处理未重新路由则 additionalEventData 将不存在。

json{ eventVersion 109 eventSource bedrockamazonawscom eventName Converse awsRegion useast1 additionalEventData { inferenceRegion uswest2 } }

此外,该信息还可在 Amazon Bedrock 模型调用日志 中获得。此日志需要先启用,并将日志目录设置到 Amazon CloudWatch 日志或 Amazon S3 存储桶:

json{ schemaType ModelInvocationLog schemaVersion 10 region useast1 operation Converse inferenceRegion uswest2}

使用 Amazon CloudWatch Logs,您可以创建有关应用性能的 指标。使用 inferenceRegion 键从 CloudTrail 事件或 Amazon Bedrock 模型调用日志,您可以增强仪表板和监控系统,以区分在主要区域处理的 Amazon Bedrock 请求与重新路由的请求。此功能的代码范例可在此 GitHub 存储库 的监控、日志记录和指标部分中获得。

身份和访问管理

AWS 身份与访问管理IAM是安全管理 AWS 服务和资源的身份和访问的关键。在使用跨区推理前,请检查您的角色是否有权访问跨区推理 API 动作。更多细节可见 这里。以下是一个示例政策,允许调用者使用 InvokeModel API 对 useast1 和 uswest2 区域中的任何模型:

json{ Version 20121017 Statement [ { Effect Allow Action [bedrockInvokeModel] Resource [ arnawsbedrockuseast1ltaccountidgtinferenceprofile/ arnawsbedrockuseast1foundationmodel/ arnawsbedrockuswest2foundationmodel/ ] } ]}

开始使用跨区推理

要开始使用跨区推理,您需要在 Amazon Bedrock 中利用 推理配置档。模型的推理配置档配置来自相应 AWS 区域的不同模型 ARN,并将它们抽象为统一的模型标识符包括 ID 和 ARN。通过使用此新的推理配置档标识符,在 InvokeModel 或 Converse API 中,您可以使用跨区推理功能。

对于在您的主要区域和通过跨区推理可用的模型,您可以根据如下方法开始使用这些模型。但您也应请求对仅通过跨区推理可用模型的访问权限。例如,为了获取在美国西部俄勒冈州地区调用Anthropic 的 Claude 3 Haiku 推理配置档的访问权限,请前往 uswest2 的 Amazon Bedrock 控制台上的模型访问页面以授予访问。更多详细资讯,请参阅 跨区推理的前置条件。

以下是使用推理配置档开始使用跨区推理的步骤:

列出推理配置档您可以通过登录到 Amazon Bedrock AWS 控制台或 API 列出您区域中可用的推理配置档。

控制台

在左侧导航窗格中选择跨区推理。浏览您区域可用的不同推理配置档。复制推理配置档 ID,并用于您的应用程序,如下文所述。

API 也可以通过 boto3 SDK 或 AWS CLI 列出您区域中可用的推理配置档。

bash aws bedrock listinferenceprofiles

您可以观察不同的推理配置档是如何为包括多