This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

更快速且更準確的 AI 推論

運用 AI 的應用程式和服務，提升突破性效能表現

簡介
優勢
平台
產業
資源

簡介
優勢
平台
產業
資源

運用人工智慧於推論，進而推動各行各業的創新發展。隨著正快速擴展的 AI 模型，其大小、複雜性和多樣性更加推動可能性的界線。為成功使用 AI 推論，組織和 MLOps 工程師需要一種全棧方法，支援端到端的 AI 生命周期，進而幫助團隊實現目標。

運用 NVIDIA AI Enterprise 部署新一代 AI 推論

NVIDIA 提供端到端的產品、基礎設施和服務，無論是在雲端、資料中心、網路邊緣，抑或是嵌入式設備中等各種環境，皆支援新一代 AI 推論效能、效率和反應。這些解決方案針對不同程度 AI 專業知識和經驗值的 MLOps 工程師、資料科學家、應用程式開發人員和軟體基礎設施工程師而設計。

NVIDIA 的全棧架構方法可確保 AI 相關的應用程式可以最佳效能、更少的伺服器和更低的功耗進行部署，從而以極低的成本獲得更優異的洞察能力。

NVIDIA AI Enterprise 是一個企業級推論平台，包括頂尖推論軟體、值得信賴的管理、安全性和 API 穩定性，以確保效能及穩定度。

探索 NVIDIA AI Enterprise 在 AI 推論方面的優勢

標準化部署

在應用程式、AI 框架、模型架構和平台之間進行標準化模型部署。

方便整合

輕鬆整合至公共雲端、本地資料中心和邊緣的工具和平台中。

降低成本

通過 AI 基礎設施實現高吞吐量和運用率，進而降低成本。

無縫擴展

根據應用程式需求無縫擴展推論。

極高效能

NVIDIA 推論平台在 MLPerf 這項 AI 領域的領先業界基準測試中，在多個類別中始終保持創紀錄的優異效能表現。

端到端 NVIDIA AI 推論平台

NVIDIA AI 推論軟體

NVIDIA AI Enterprise 是一個端對端 AI 軟體平台，由 NVIDIA Triton™ 推論伺服器、NVIDIA® TensorRT™、NVIDIA TensorRT-LLM 和其他工具組成，可簡化 AI 應用程式的建置、共用和部署。透過企業級支援、穩定性、可管理性和安全性，企業可以加快實現價值的速度，同時消除非預期停機的風險。

NVIDIA Triton 推論伺服器

NVIDIA Triton 推論服務器是一款開源推論服務軟體，有助於在任何基於 GPU 或 CPU 的基礎設施，在所有主要的 AI 框架中標準化生產 AI 模型部署和執行，進而應用於生產環境中。

NVIDIA TensorRT

NVIDIA TensorRT 是一個用於高效能深度學習推論的軟體開發工具包（SDK），其中包含一個深度學習推論優化器，運行時可為推論應用程式提供低延遲和高吞吐量。TensorRT 可以與 Triton 一同部署、運行和擴展。

NVIDIA TensorRT-LLM

TensorRT-LLM 是一個開源庫，用於定義、優化和執行大型語言模型 (LLM) 以進行生產推論。其保留了 FasterTransformer 的核心功能，並與 TensorRT 的深度學習編譯器配對，在一個開源的 Python API 中，可以快速支持新的模型和自行定義設定。

NVIDIA AI 推論基礎設施

NVIDIA L4 GPU

L4 以具有成本效益的方式，為影像、AI 、視覺運算、繪圖、虛擬化等提供通用且節能的加速運算。該 GPU 的 AI 影像效能相較於僅基於 CPU 的解決方案，高達 120 倍，讓企業能夠獲得即時洞察來個性化內容、提高搜索相關性等。

NVIDIA L40S GPU

將 NVIDIA 的完整推論伺服軟體與L40S GPU 結合使用，為訓練好的推論模型提供了一個強大的平台。L40S 支援結構稀疏性和廣泛的精度範圍，其推論效能高達 NVIDIA A100 Tensor Core GPU 的 1.7 倍。

NVIDIA H100 Tensor Core GPU

H100 提供 NVIDIA 加速運算資料中心平台的下一個大躍進，可以在每個資料中心皆安全地加速各種工作負載，從小型企業工作負載到極致規模的高效能資料工作負載，以及數兆參數 AI 工作負載。

NVIDIA GH200 超級晶片

企業需要一個多功能系統來處理最大的模型，並充分發揮其推論基礎設施的潛力。與傳統加速推論解決方案相比，GH200 Grace Hopper 超級晶片為 GPU 提供超過7 倍的快速內建記憶體，並且比 CPU 推論解決方案提供更多 FLOPS，可滿足 LLMs 、推薦系統、向量資料庫等的大量需求。

一探究竟各行各業 AI 推論應用

防止金融欺詐

美國運通公司在信用卡交易時，運用 AI 進行超低延遲欺詐檢測。

加速自動駕駛推論

了解 NIO 如何透過 NVIDIA Triton 整合到其自動駕駛推論管道中，有效實現低延遲推論工作流程。

強化團隊協作

Microsoft Teams 提供 28 種語言的高度精準即時會議字幕和轉錄服務。

提供客戶卓越的音樂體驗

瞭解 Amazon Music 如何結合 SageMaker 和 NVIDIA AI 來優化機器學習訓練和推論效能及成本。

加速廣告投放速度

探索 Microsoft Bing 如何利用 NVIDIA Triton 推論伺服器加速廣告投放，進而達到 7 倍的投放量。

更多資源

獲取最新消息

了解最新的推論更新和公告。

聆聽專家的意見

探索關於推論以及如何開始使用 Triton 推論伺服器、Triton 管理式服務和 TensorRT 入門等 GTC 議程。

探索技術部落格

瞭解如何開始推論的技術演練。

查閱電子書

探索 AI 推論的現今發展、公司生產實例以及現實世界中的眾多挑戰和解決方案。

隨時掌握 NVIDIA 的最新 AI 推論訊息。