Az NVIDIA felgyorsítja a következtetést a Meta Llama 3-ban | NVIDIA blog

Az NVIDIA ma bejelentette, hogy optimalizálja a gyorsítást minden platformján Meta Llama 3A nagy nyelvi modell legújabb generációja (Fokozat).

Nyitott modell NVIDIA-val kombinálva gyorsított számítástechnika Felkészíti a fejlesztőket, kutatókat és vállalkozásokat arra, hogy felelősségteljesen újítsanak az alkalmazások széles körében.

NVIDIA AI-n képzett

A metamérnökök 24 576 számítógépcsoporton képezték ki a Llama 3-at NVIDIA H100 Tensor Core GPU-kkapcsolódik a RoCE és NVIDIA Quantum-2 InfiniBand sír.

A technológia állapotának további fejlesztése érdekében produktív mesterséges intelligenciaMeta nemrég bejelentette infrastruktúráját 350 000 H100 GPU-ra tervezi bővíteni.

Futó Láma 3

A Llama 3 NVIDIA GPU-gyorsítású verziói ma már elérhetők a felhőben, az adatközpontban, az élen és a PC-n.

A fejlesztők kipróbálhatják a Llama 3-at böngészőből. ai.nvidia.com. Csomagolás, mint NVIDIA NIM Mikroszolgáltatás szabványos alkalmazásprogramozási felülettel, amely bárhol telepíthető.

A vállalkozások adataikkal finomhangolhatják a Llama 3-at. NVIDIA NeMonyílt forráskódú keretrendszer LLM-ek számára, amely egy biztonságos, támogatott rendszer része NVIDIA AI Enterprise felület. Az egyedi modellek optimalizálhatók következtetésekre NVIDIA TensorRT-LLM és bevetve együtt NVIDIA Triton következtetés szerver.

A Llama 3 bevezetése az eszközökre és a számítógépekre

A Lama 3 is működik NVIDIA Jetson Orin interaktív ágensek építése a robotika és az élszámítógépek számára, mint pl Jetson Mesterséges Intelligencia Laboratórium.

Mi más, NVIDIA RTX És GeForce RTX A munkaállomások és PC-k GPU-i felgyorsítják a következtetést a Llama 3-ban. Ezek a rendszerek a fejlesztők számára több mint 100 millió NVIDIA-gyorsított rendszer létrehozását tűzték ki célul világszerte.

Optimális teljesítmény a Llama 3 segítségével

A chatbotok fő telepítésének bevált gyakorlatai közé tartozik az alacsony késleltetés, a jó olvasási sebesség és az optimális GPU-kihasználás a költségek csökkentése érdekében.

Egy ilyen szolgáltatásnak a tokeneket (a szavak durva megfelelőjét az LLM-hez) a felhasználó olvasási sebességének megközelítőleg kétszeresével, azaz körülbelül 10 token/másodpercsel kellene kézbesítenie.

Ezen mérések alkalmazásával egyetlen NVIDIA H200 Tensor Core GPU A Llama 3 70 milliárd paraméteres verziójával végzett kezdeti tesztelés során körülbelül 3000 érmét generált másodpercenként (ez körülbelül 300 egyidejű felhasználó kiszolgálásához elegendő).

Ez egyet jelent NVIDIA HGX A nyolc H200 GPU-val rendelkező szerver másodpercenként 24 000 érmét képes leadni, és több mint 2400 egyidejű felhasználót támogat, tovább optimalizálva a költségeket.

A szélső eszközök esetében a nyolcmilliárd paraméterű Llama 3 verziót a Jetson AGX Orin akár 40 tokent, a Jetson Orin Nano esetében pedig 15 tokent másodpercenként állítottak elő.

Közösségi modellek fejlesztése

Aktív nyílt forráskódú résztvevőként az NVIDIA elkötelezett a közösségi szoftverek optimalizálása mellett, amely segít a felhasználóknak leküzdeni a legnehezebb kihívásokat. A nyílt forráskódú modellek elősegítik a mesterséges intelligencia átláthatóságát, és lehetővé teszik a felhasználók számára, hogy széles körben megosszák a mesterséges intelligencia biztonságáról és ellenálló képességéről szóló tanulmányokat.

Tudjon meg többet az NVIDIA mesterséges intelligencia-következtetési platformjának működéséről, beleértve azt is, hogy a NIM, a TensorRT-LLM és a Triton hogyan alkalmazza az olyan élvonalbeli technikákat, mint a NIM, a TensorRT-LLM és a Triton. alacsony fokú alkalmazkodás a legújabb LLM-ek felgyorsítása érdekében.

Related Posts

Read also x