NVIDIA NIM 推理微服务

旨在随时随地快速可靠地部署加速生成式 AI 推理。

开始体验

视频 | 解决方案简介 | 面向开发者

概述
优势
演示
技术
基准测试
模型
特性
用例
启动选项
资源
后续步骤

概述
优势
演示
技术
基准测试
模型
特性
用例
启动选项
资源
后续步骤

开始体验

概述

什么是 NVIDIA NIM？

NVIDIA NIM™ 是一套易于使用的预构建容器工具，可在任何 NVIDIA 加速基础设施（云、数据中心、工作站和边缘设备）上快速部署最新 AI 模型。

由 NVIDIA NIM 提供支持的生成式 AI 推理：性能和 TCO

了解 NIM 推理微服务的性能如何超越热门替代方案，其在相同 NVIDIA 加速基础设施上运行时能够提供提升高达 3 倍的每秒 token 吞吐量。

立即观看

开发者免费访问 NIM

借助由 DGX Cloud 加速的无服务器 API，免费进行无限制的 NIM 原型设计，并且免费加入 NVIDIA 开发者计划，以便下载 NIM 推理微服务，并在您自己的基础设施上进行自主托管，用于研发工作。

获取访问权限

借助 NVIDIA NIM 加速 AI 部署

NVIDIA NIM 兼具托管 API 的易用性和操作简便性，以及与您首选基础设施上自托管模型的灵活性和安全性。 NIM 提供 AI 团队所需的一切，包括最新 AI 基础模型、优化推理引擎、行业标准 API 和运行时依赖项，这些都预封在企业级软件容器中，可随时随地部署和扩展。

优势

为企业提供事半功倍的生成式 AI

为高性能 AI 而构建的简单企业级微服务，旨在无缝运行并实惠扩展。体验由最新 AI 模型驱动的 AI 智能体和其他企业生成式 AI 应用如何在推理、仿真、语音等方面快速实现价值。

易于使用

通过为最新 AI 模型预构建经优化的微服务，加速创新并缩短上市时间。借助标准 API，模型可在五分钟内完成部署并轻松集成到应用中。

观看：在 5 分钟内部署 NIM

企业级

部署企业级微服务，这些微服务由 NVIDIA 通过严格验证流程和专属特性分支进行持续管理，可获得 NVIDIA 企业支持，并提供直接与 NVIDIA AI 专家交流的机会。

性能和规模

通过低延迟、高吞吐量、随云扩展的 AI 推理来降低 TCO，并通过支持开箱即用的微调模型实现极高的精度。

观看：NIM 性能和 TCO 优势

可移植性

借助预构建云原生微服务在任何地方部署，这些微服务可在各类 NVIDIA 加速基础设施（云、数据中心和工作站）上运行，并在 Kubernetes 和云服务提供商环境中无缝扩展。

演示

使用 NIM 构建 AI 智能体

了解如何设置两个分别用于内容生成和数字图形设计的 AI 智能体，并了解如何轻松使用 NIM 微服务来启动和运行这些 AI 智能体。

立即观看

技术

代理式 AI 的基础模组

获取最新 AI 推理模型

获取用于推理、语言、检索、语音、视觉等的最新 AI 模型，只需五分钟即可在各类 NVIDIA 加速基础设施上部署。

立即体验

借助 NVIDIA Blueprint 快速启动开发

借助包含 NVIDIA 加速库、SDK 和 NIM 的全面参考工作流，构建有影响力的代理式 AI 应用。

了解详情立即体验

借助 NVIDIA AgentIQ 工具套件简化开发

借助用于构建 AI 智能体并将其集成到自定义工作流中的开发者工具套件 NVIDIA AgentIQ，将 NIM 集成到代理式 AI 应用中。

了解详情立即体验

基准测试

使用 NIM 提高吞吐量

NVIDIA NIM 提供经过优化、开箱即用的吞吐量和延迟，可更大限度地提高 token 生成速度，为高峰期并发用户提供支持并改善响应能力。NIM 会使用经过优化的最新推理引擎不断更新，随着时间推移，同一基础设施的性能会不断提升。

配置：Llama 3.1 8B instruct，1 个 H100 SXM；并发请求：200。NIM 开启：FP8、吞吐量 1201 个 token/秒、ITL 32 毫秒。NIM 关闭：FP8，吞吐量 613 个 token/秒，ITL 37 毫秒。

模型

使用领先的开放模型进行构建

获得最新 AI 模型的优化推理性能，通过推理、语言、检索、语音、图像等为多模态代理式 AI 提供支持。NIM 配备 NVIDIA 和社区提供的加速推理引擎，包括 NVIDIA® TensorRT™、TensorRT-LLM 等，这些引擎已经过预构建和优化，可在 NVIDIA 加速基础设施上进行低延迟、高吞吐量推理。

查看更多模型

特性

AI 开发和部署的简易方法

NIM 推理微服务可随时随地运行，提供行业标准 API，以便轻松与企业系统和应用集成，并可在 Kubernetes 上无缝扩展，从而提供云级高吞吐量、低延迟推理。

部署 NIM

用单个命令为您的模型部署 NIM。您还可以轻松地使用微调模型运行 NIM。

运行推理

借助最佳运行时引擎，在 NVIDIA 加速基础设施的基础上启动并运行 NIM。

构建

仅使用几行代码即可集成自托管 NIM 端点。

Deploy

Run

Build

docker run nvcr.io/nim/publisher_name/model_name

 
 curl -X 'POST' \ 
  'http://0.0.0.0:8000/v1/completions' \ 
  -H 'accept: application/json' \ 
  -H 'Content-Type: application/json' \ 
  -d '{ 
  "model" : "model_name", 
  "prompt" : "Once upon a time", 
  "max_tokens" : 64 
 }' 

 
 import openai 
 client = openai.OpenAI( 
  base_url = "YOUR_LOCAL_ENDPOINT_URL", 
  api_key="YOUR_LOCAL_API_KEY" 
 ) 
 chat_completion = client.chat.completions.create( 
  model="model_name", 
  messages=[{"role" : "user" , "content" : "Write me a love song" }], 
  temperature=0.7 
 )