首頁(yè) 資訊 設(shè)計(jì)師文章資訊 解鎖超凡生成式 AI 能力:TensorRT 加速 RTX PC 和工作站上的 AI

解鎖超凡生成式 AI 能力:TensorRT 加速 RTX PC 和工作站上的 AI

作者:設(shè)計(jì)圈
2024-03-28 發(fā)布      

內(nèi)容簡(jiǎn)介

+++

編者注:本文屬于《解碼 AI》系列欄目,該系列的目的是讓技術(shù)更加簡(jiǎn)單易懂,從而解密 AI,同時(shí)向 RTX PC 用戶展示全新硬件、軟件、工具和加速特性。

隨著生成式 AI 技術(shù)不斷進(jìn)步并在各行各業(yè)中得到廣泛應(yīng)用,在本地 PC 和工作站上運(yùn)行生成式 AI 應(yīng)用的重要性越來(lái)越高。本地推理可讓用戶享受更低的延遲,不再依賴網(wǎng)絡(luò),并能夠更好地保護(hù)和管理自己的本地?cái)?shù)據(jù)。

NVIDIA GeForce 和 NVIDIA RTX GPU 配備專用的 AI 硬件加速器 Tensor Core,可為在本地運(yùn)行生成式 AI 提供強(qiáng)大動(dòng)力。

NVIDIA TensorRT 軟件開發(fā)者套件現(xiàn)已針對(duì) Stable Video Diffusion 進(jìn)行優(yōu)化,該套件可在超過(guò) 1 億臺(tái)由 RTX GPU 提供支持的 Windows PC 和工作站上解鎖超高性能生成式 AI。優(yōu)化的 Stable Video Diffusion 1.1 Image-to-Video 模型可以在 Hugging Face 上下載。

適用于 Automatic1111 開發(fā)的熱門 Stable Diffusion WebUI 的 TensorRT 擴(kuò)展程序現(xiàn)已添加對(duì) ControlNet 的支持。ControlNet 是一種工具,可以讓用戶添加其他圖像作為指導(dǎo),以便更好地把控并優(yōu)化生成式內(nèi)容的輸出。

全新的 UL Procyon AI 圖像生成基準(zhǔn)測(cè)試現(xiàn)已支持 TensorRT 加速,內(nèi)部測(cè)試表明該基準(zhǔn)測(cè)試可以準(zhǔn)確復(fù)現(xiàn)實(shí)際性能表現(xiàn)。與最快的非 TensorRT 加速狀態(tài)相比,TensorRT 加速可在 GeForce RTX 4080 SUPER GPU 上帶來(lái) 50% 的速度提升,比實(shí)力最接近的競(jìng)品快 1 倍以上。

更高效、更精準(zhǔn)的 AI

TensorRT 使開發(fā)者能夠得到完全優(yōu)化的 AI 硬件體驗(yàn)。與在其他框架上運(yùn)行應(yīng)用相比,AI 性能通常會(huì)翻倍。

TensorRT 還能加速非常熱門的生成式 AI 模型,例如 Stable Diffusion 和 SDXL。Stable Video Diffusion 是 Stability AI 的 Image-to-Video 生成式 AI 模型,在 TensorRT 的助力下,其速度可提升 40%。

此外,適用于 Stable Diffusion WebUI 的 TensorRT 擴(kuò)展程序至高可將性能提升至原來(lái)的 2 倍,從而大幅加速 Stable Diffusion 工作流。

此擴(kuò)展程序的最新更新使 TensorRT 的優(yōu)化可擴(kuò)展至 ControlNet。ControlNet 是一組 AI 模型,可借助額外控制來(lái)引導(dǎo)擴(kuò)散模型的輸出。在 TensorRT 的助力下,ControlNet 的速度可提高 40%。

用戶可以引導(dǎo)輸出的各個(gè)方面,使其與輸入圖像匹配,這使他們能夠加強(qiáng)對(duì)最終圖像的把控。他們還可以同時(shí)使用多個(gè) ControlNet 來(lái)更好地把控輸出。ControlNet 可以使用深度圖、邊緣圖、法線圖或關(guān)鍵點(diǎn)檢測(cè)模型等。

立即在 GitHub 上下載適用于 Stable Diffusion WebUI 的 TensorRT 擴(kuò)展程序。

由 TensorRT 加速的其他熱門應(yīng)用

Blackmagic Design 在 DaVinci Resolve 的 18.6 更新中采用了 NVIDIA TensorRT 加速。與 Mac 相比,DaVinci Resolve 的神奇遮罩、光流 (Speed Warp) 和 Super Scale 等 AI 工具在 RTX GPU 上的運(yùn)行速度提高了 50% 以上,最高可達(dá)在 Mac 上的 2.3 倍。

此外,借助 TensorRT 集成,Topaz Labs 的 Photo AI 和 Video AI 應(yīng)用(例如照片降噪、銳化、照片超分辨率、視頻慢動(dòng)作、視頻超分辨率、視頻防抖等)在 RTX 上運(yùn)行時(shí),性能至高可提升 60%。

將 Tensor Core 與 TensorRT 軟件結(jié)合后,本地 PC 和工作站可獲得卓越的生成式 AI 性能。此外,本地運(yùn)行擁有以下優(yōu)勢(shì):

●       性能增強(qiáng):用戶將體驗(yàn)到更低的延遲,因?yàn)楫?dāng)整個(gè)模型在本地運(yùn)行時(shí),延遲不受網(wǎng)絡(luò)質(zhì)量影響。這對(duì)于游戲或視頻會(huì)議等實(shí)時(shí)用例非常重要。NVIDIA RTX 提供超快的 AI 加速器,可將 AI 運(yùn)算速度擴(kuò)展至超過(guò) 1300 萬(wàn)億次運(yùn)算/秒 (TOPS)。

●       成本降低:用戶無(wú)需承擔(dān)與大型語(yǔ)言模型推理相關(guān)的云服務(wù)、云托管 API 或基礎(chǔ)設(shè)施的成本。

●       隨時(shí)訪問(wèn):用戶可以隨時(shí)隨地訪問(wèn) LLM 功能,無(wú)需依賴高帶寬網(wǎng)絡(luò)連接。

●       數(shù)據(jù)隱私無(wú)虞:私人和專有數(shù)據(jù)可始終保留在用戶的設(shè)備上。

針對(duì) LLM 優(yōu)化

了解 TensorRT 為深度學(xué)習(xí)帶來(lái)了哪些優(yōu)勢(shì),以及 NVIDIA TensorRT-LLM 為最新的 LLM 帶來(lái)了哪些優(yōu)勢(shì)。

TensorRT-LLM 是一個(gè)可加速和優(yōu)化 LLM 推理的開源庫(kù),包含對(duì)熱門社區(qū)模型(Phi-2、Llama2、Gemma、Mistral 和 Code Llama 等)的開箱即用支持。無(wú)論是開發(fā)者和創(chuàng)作者,還是企業(yè)員工和普通用戶,任何人都可以在 NVIDIA AI 游樂園中試用經(jīng) TensorRT-LLM 優(yōu)化的模型。此外,通過(guò)使用 NVIDIA ChatRTX 技術(shù)演示軟件,用戶可以了解在 Windows PC 上本地運(yùn)行的各種模型的性能。ChatRTX 基于 TensorRT-LLM 構(gòu)建,可優(yōu)化 RTX GPU 上模型的性能。

借助新的封裝器,適用于 Windows 的 TensorRT-LLM 可與 OpenAI 的熱門聊天 API 兼容,您可以選擇在云端或是在本地 RTX 系統(tǒng)上運(yùn)行 LLM 應(yīng)用,并在二者之間輕松切換。

NVIDIA 正在與開源社區(qū)合作,開發(fā)適用于熱門應(yīng)用框架(包括 LlamaIndex 和 LangChain)的原生 TensorRT-LLM 連接器。

這些創(chuàng)新使開發(fā)者能夠輕松將 TensorRT-LLM 與其應(yīng)用結(jié)合使用,并通過(guò) RTX 體驗(yàn)卓越 LLM 性能。

請(qǐng)訂閱《解碼 AI》時(shí)事通訊,我們每周都會(huì)將新鮮資訊直接投遞到您的收件箱。

###


收藏

0人已收藏

全部評(píng)論 0

    更多評(píng)論