Az NVIDIA ma bejelentette, hogy optimalizálja a gyorsítást minden platformján Meta Llama 3A nagy nyelvi modell legújabb generációja (Fokozat).
Nyitott modell NVIDIA-val kombinálva gyorsított számítástechnika Felkészíti a fejlesztőket, kutatókat és vállalkozásokat arra, hogy felelősségteljesen újítsanak az alkalmazások széles körében.
NVIDIA AI-n képzett
A metamérnökök 24 576 számítógépcsoporton képezték ki a Llama 3-at NVIDIA H100 Tensor Core GPU-kkapcsolódik a RoCE és NVIDIA Quantum-2 InfiniBand sír.
A technológia állapotának további fejlesztése érdekében produktív mesterséges intelligenciaMeta nemrég bejelentette infrastruktúráját 350 000 H100 GPU-ra tervezi bővíteni.
Futó Láma 3
A Llama 3 NVIDIA GPU-gyorsítású verziói ma már elérhetők a felhőben, az adatközpontban, az élen és a PC-n.
A fejlesztők kipróbálhatják a Llama 3-at böngészőből. ai.nvidia.com. Csomagolás, mint NVIDIA NIM Mikroszolgáltatás szabványos alkalmazásprogramozási felülettel, amely bárhol telepíthető.
A vállalkozások adataikkal finomhangolhatják a Llama 3-at. NVIDIA NeMonyílt forráskódú keretrendszer LLM-ek számára, amely egy biztonságos, támogatott rendszer része NVIDIA AI Enterprise felület. Az egyedi modellek optimalizálhatók következtetésekre NVIDIA TensorRT-LLM és bevetve együtt NVIDIA Triton következtetés szerver.
A Llama 3 bevezetése az eszközökre és a számítógépekre
A Lama 3 is működik NVIDIA Jetson Orin interaktív ágensek építése a robotika és az élszámítógépek számára, mint pl Jetson Mesterséges Intelligencia Laboratórium.
Mi más, NVIDIA RTX És GeForce RTX A munkaállomások és PC-k GPU-i felgyorsítják a következtetést a Llama 3-ban. Ezek a rendszerek a fejlesztők számára több mint 100 millió NVIDIA-gyorsított rendszer létrehozását tűzték ki célul világszerte.
Optimális teljesítmény a Llama 3 segítségével
A chatbotok fő telepítésének bevált gyakorlatai közé tartozik az alacsony késleltetés, a jó olvasási sebesség és az optimális GPU-kihasználás a költségek csökkentése érdekében.
Egy ilyen szolgáltatásnak a tokeneket (a szavak durva megfelelőjét az LLM-hez) a felhasználó olvasási sebességének megközelítőleg kétszeresével, azaz körülbelül 10 token/másodpercsel kellene kézbesítenie.
Ezen mérések alkalmazásával egyetlen NVIDIA H200 Tensor Core GPU A Llama 3 70 milliárd paraméteres verziójával végzett kezdeti tesztelés során körülbelül 3000 érmét generált másodpercenként (ez körülbelül 300 egyidejű felhasználó kiszolgálásához elegendő).
Ez egyet jelent NVIDIA HGX A nyolc H200 GPU-val rendelkező szerver másodpercenként 24 000 érmét képes leadni, és több mint 2400 egyidejű felhasználót támogat, tovább optimalizálva a költségeket.
A szélső eszközök esetében a nyolcmilliárd paraméterű Llama 3 verziót a Jetson AGX Orin akár 40 tokent, a Jetson Orin Nano esetében pedig 15 tokent másodpercenként állítottak elő.
Közösségi modellek fejlesztése
Aktív nyílt forráskódú résztvevőként az NVIDIA elkötelezett a közösségi szoftverek optimalizálása mellett, amely segít a felhasználóknak leküzdeni a legnehezebb kihívásokat. A nyílt forráskódú modellek elősegítik a mesterséges intelligencia átláthatóságát, és lehetővé teszik a felhasználók számára, hogy széles körben megosszák a mesterséges intelligencia biztonságáról és ellenálló képességéről szóló tanulmányokat.
Tudjon meg többet az NVIDIA mesterséges intelligencia-következtetési platformjának működéséről, beleértve azt is, hogy a NIM, a TensorRT-LLM és a Triton hogyan alkalmazza az olyan élvonalbeli technikákat, mint a NIM, a TensorRT-LLM és a Triton. alacsony fokú alkalmazkodás a legújabb LLM-ek felgyorsítása érdekében.