应用

让生成式 AI 触手可及：火山引擎推出 NVIDIA NIM on VKE 最佳部署实践

技术行业近来对大语言模型（LLM）的关注正开始转向生产环境的大规模部署，将 AI 模型接入现有基础设施以优化系统性能，包括降低延迟、提高吞吐量，以及加强日志记录、监控和安全性等。然而这一路径既复杂又耗时，往往需要构建专门的平台和流程。

在部署 AI 模型的过程中，研发团队通常需要执行以下步骤：

环境搭建与配置：首先需要准备和调试运行环境，这包括但不限于 CUDA、Python、PyTorch 等依赖项的安装与配置。这一步骤往往较为复杂，需要细致地调整各个组件以确保兼容性和性能。

模型优化与封装：接下来进行模型的打包和优化，以提高推理效率。这通常涉及到使用 NVIDIA TensorRT 软件开发套件或 NVIDIA TensorRT-LLM 库等专业工具来优化模型，并根据性能测试结果和经验来调整推理引擎的配置参数。这一过程需要深入的 AI 领域知识，并且工具的使用具有一定的学习成本。

模型部署：最后，将优化后的模型部署到生产环境中。对于非容器化环境，资源的准备和管理也是一个需要精心策划的环节。

为了简化上述流程并降低技术门槛，火山引擎云原生团队推出基于 VKE 的 NVIDIA NIM 微服务最佳实践。通过结合 NIM 一站式模型服务能力，以及火山引擎容器服务 VKE 在成本节约和极简运维等方面的优势，这套开箱即用的技术方案将帮助企业更加快捷和高效地部署 AI 模型。

AI 微服务化：NVIDIA NIM

NVIDIA NIM 是一套经过优化的企业级生成式 AI 微服务，它包括推理引擎，通过 API 接口对外提供服务，帮助企业和个人开发者更简单地开发和部署 AI 驱动的应用程序。

NIM 使用行业标准 API，支持跨多个领域的 AI 用例，包括 LLM、视觉语言模型（VLM），以及用于语音、图像、视频、3D、药物研发、医学成像等的模型。同时，它基于 NVIDIA Triton™ Inference Server、NVIDIA TensorRT™、NVIDIA TensorRT-LLM 和 PyTorch 构建，可以在加速基础设施上提供最优的延迟和吞吐量。

为了进一步降低复杂度，NIM 将模型和运行环境做了解耦，以容器镜像的形式为每个模型或模型系列打包。其在 Kubernetes 内的部署形态如下：

NVIDIA NIM on Kubernetes

火山引擎容器服务 VKE（Volcengine Kubernetes Engine）通过深度融合新一代云原生技术，提供以容器为核心的高性能 Kubernetes 容器集群管理服务，可以为 NIM 提供稳定可靠高性能的运行环境，实现模型使用和运行的强强联合。

同时，模型服务的发布和运行也离不开发布管理、网络访问、观测等能力，VKE 深度整合了火山引擎高性能计算（ECS/裸金属）、网络（VPC/EIP/CLB）、存储（EBS/TOS/NAS）、弹性容器实例（VCI）等服务，并与镜像仓库、持续交付、托管 Prometheus、日志服务、微服务引擎等云产品横向打通，可以实现 NIM 服务构建、部署、发布、监控等全链路流程，帮助企业更灵活、更敏捷地构建和扩展基于自身数据的定制化大型语言模型（LLMs），打造真正的企业级智能化、自动化基础设施。