پردازندههای گرافیکی NVIDIA
پردازندههای گرافیکی شرکت NVIDIA، ماشینهای قدرتمندی هستند که توانایی انجام محاسبات متعدد بهطور موازی بر روی صدها تا هزاران هسته محاسباتی مجزا را دارند. با انتشار معماری میکرویی حافران (Hopper) در سال گذشته، پردازنده NVIDIA H100 بهعنوان یکی از قدرتمندترین رایانههای تکی که تاکنون در دسترس مصرفکنندگان قرار گرفتهاند، بهشدت عملکرد بالاتری نسبت به نسل قبلی ماشینهای آمپر (Ampere) از خود نشان داده است. با هر انتشار معماری میکرو، اصطلاحی برای معماری دستورالعملهای پردازنده، NVIDIA بهبود قابلتوجهی در ظرفیت VRAM، هستههای CUDA و پهنای باند نسبت به نسل قبلی ارائه داده است. در حالی که پردازندههای قدرتمند آمپر، بهویژه A100، انقلاب AI را طی 2 سال گذشته بهراه انداختهاند؛ ما شاهد پیشرفتهای بیسابقهای در نرخ توسعه با پردازندههای حافران، به ویژه در مدلهای H100، بودهایم.
بررسی و نمایش پیشرفتهای باورنکردنی در پردازنده گرافیکی مرکز دادههای نوین NVIDIA: سری H100 حافران
در این مقاله، به بررسی و پیشنمایش برخی از پیشرفتهای فوقالعاده در تازهترین و پیشرفتهترین پردازنده گرافیکی مرکز دادهها از نویدیا خواهیم پرداخت: سری H100 حافران.
پیشنیازها
محتوای این مقاله بسیار فنی است. ما خواندن این مطلب را به خوانندگانی که با هر دو موضوع سختافزار کامپیوتر و مفاهیم اولیه در یادگیری عمیق آشنا هستند توصیه میکنیم.
بررسی ماشین: پردازنده گرافیکی NVIDIA H100
پردازنده گرافیکی NVIDIA H100 Tensor Core گامی توسعهای به جلو از A100 را در چندین جنبه کلیدی نمایش میدهد. در این قسمت، ما به شکافتن برخی از این پیشرفتها در زمینه کاربردهای یادگیری عمیق میپردازیم.
برای شروع، H100 دارای دومین پهنای باند حافظه کارت Peripheral Component Interconnect express (PCIe) بالاتر از H200 که بهتازگی منتشر شده، است و در هر پردازنده گرافیکی موجود در بازار قرار دارد. با بیش از 2 ترابایت بر ثانیه، این مدل قادر به بارگذاری و کار با بزرگترین دیتاستها و مدلها با استفاده از 80GB حافظه VRAM خود با سرعتهای بسیار بالاست. این امر عملکرد استثنایی را به پردازنده گرافیکی NVIDIA H100 میدهد، بهویژه برای کاربردهای AI مقیاس بزرگ.
این پهنای باند شگفتانگیز از طریق نسل چهارم هستههای Tensor در H100 امکانپذیر شده است که پرشی کیفی از گذشته پردازندههای GPU است. H100 دارای 640 هسته Tensor و 128 هسته Ray Tracing است که به پردازش دادههای با سرعت بالا که امضای این ماشین است، کمک میکند. اینها بهعلاوه 14592 هسته CUDA برای دستیابی به 26 ترافلاپس حیرتانگیز در عملیاتهای دقت کامل (fp64) تکمیل میشوند.
علاوه بر این، تکنولوژی هسته Tensor NVIDIA H100
از طیف وسیعی از دقتهای ریاضی پشتیبانی میکند و برای پردازندهها در هر فعالیت محاسباتی یک شتابدهنده تکی فراهم میآورد. پردازنده NVIDIA H100 PCIe از عملیاتهای محاسباتی دقت دوبرابر (FP64)، دقت تکبرابر (FP32)، نصف دقت (FP16) و عملیاتهای صحیح (INT8) پشتیبانی میکند.
ویژگیهای جدید در پردازندههای گرافیکی حافران
در معماری میکروی حافران، تعداد قابل توجهی ارتقا وجود دارد که شامل بهبودهایی در تکنولوژی هسته Tensor، معرفی موتور تبدیل و موارد دیگر میشود. بیایید به بررسی دقیقتر برخی از ارتقاءهای بارزتر بپردازیم.
تنسور کورهای نسل چهارم به همراه موتور تبدیلکننده
شاید برجستهترین بهروزرسانی برای کاربران یادگیری عمیق یا هوش مصنوعی، نسل چهارم تنسور کورها باشد که سرعت بسیار بالایی تا ۶۰ برابر نسبت به عملکرد اوج کارآیی از نسخه Ampere Tensor Core را وعده میدهد. برای دستیابی به این، انویدیا موتور تبدیلکننده را عرضه کرده است. موتور تبدیلکننده اختصاصی، یک جزء اساسی از هر تنسور کور است که به منظور شتاب دادن به مدلهای ساخته شده با بلوک ترانسفورمر در معماری خود طراحی شده است، بدین طریق محاسبات میتوانند به صورت پویا در فرمتهای مخلوط FP8 و FP16 رخ دهند.

از آنجا که تعداد عملیات ممیز شناور در تنسور کورهای FP8 دو برابر نسخه 16 بیتی است، اجرای مدلهای یادگیری عمیق در این فرمتها به منظور کاهش هزینه، بسیار مطلوب است. با این حال، این میتواند دقت مدل را به شکل قابل توجهای کاهش دهد. نوآوری موتور تبدیلکننده ممکن ساخته است تا برای جبران از دست رفتن دقت از استفاده از فرمت رایانش FP8، در حالی که همچنان از افزایش ظرفیت عبور FP16 بسیار استفاده کند. این به دلیل این ممکن است که موتور تبدیلکننده قادر به جابجایی پویای بین فرمتها در هر لایه از مدل، در صورت نیاز، است. (شکل 1) علاوه بر این، “معماری انویدیا هوپر به ویژه توسط سه برابر کردن عملیات ممیز شناور در هر ثانیه در مقایسه با پیشنسلهای TF32، FP64، FP16 و INT8 پیشرفت کرده است.”
نسل دوم امنیت MIG

MIG یا Multi Instance GPU فناوری است که امکان تقسیم یک GPU به نمونههای مجزا و معزول را فراهم میآورد، که هر کدام از آنها حافظه، کش و هستههای محاسباتی خود را دارند. در H100s، فناوری MIG نسل دوم این قابلیت را بیشتر تقویت میکند با این که امکان تقسیم GPU را به هفت نمونه امن GPU با پیکربندیهای چندین مستأجری و چند کاربری در محیطهای مجازی مهیا میکند.
در عمل، این امکان سهیم کردن GPU را با درجه بالایی از امنیت ساخت درونی فراهم میآورد و یکی از ویژگیهای کلیدی است که H100s را بسیار عالی برای کاربران در ابر میسازد. هر یک از نمونهها دارای مرمزکنندههای ویدئویی اختصاصی هستند که برای تحویل تحلیلهای ویدئویی هوشمند (IVA) در مورد زیرساختهای سهیم شده مستقیماً به سیستمهای مانیتورینگ عمل میکنند، و مدیران میتوانند اختصاصهای منابع به کاربران را با استفاده از پروفایلکردن MIG همزمان هوپر مانیتور و بهینهسازی کنند.
نسل چهارم NVLink و نسل سوم NVSwitch
NVLink و NVSwitch فناوریهای GPU انویدیا هستند که اتصال چندین GPU ها را به یکدیگر در یک سیستم یکپارچه تسهیل میکنند.
محاسبات محرمانه

یکی از دغدغههای متداول در عصر دیتای بزرگ (Big Data)، موضوع امنیت است. در حالی که دادهها اغلب در حالتهای رمزگذاری شده ذخیرهسازی یا انتقال داده میشوند، این امر هیچ محافظتی در برابر عوامل خرابکاری که ممکن است به دادهها در حین پردازش دسترسی پیدا کنند، فراهم نمیکند. با ارائه معماری میکرو پردازندهی Hopper، انویدیا راهحل نوآورانهای برای این مشکل معرفی نمود: محاسبات محرمانه. این تکنولوژی بسیاری از ریسکهای سرقت دادهها در حین فرآیند پردازش را با ایجاد یک فضای فیزیکی داده که در آن بارهای کاری به طور مستقل از بقیه سیستم کامپیوتری پردازش میشوند، از بین میبرد. با پردازش تمام بار کاری در محیط اجرایی مطمئن و غیرقابل دسترسی، دسترسی به دادههای محافظت شده مشکلتر میشود.
H100 در مقابل A100
میکرو پردازندهی NVIDIA H100 نمایانگر پیشرفت قابل توجهای در تقریباً تمام جنبهها از پیشنیاز خود یعنی A100 است. این بهبودها فقط محدود به فناوریهای جدیدی که پیشتر بحث شد نمیشوند، بلکه شامل بهبودهای کمی عمومی در قدرت پردازشی که توسط یک ماشین تکگانه ارائه میشود، نیز میگردند.
مقایسه مشخصات مرتبط با GPUهای H100 و A100:
ویژگیهای GPU | NVIDIA A100 | NVIDIA H100 PCIe1 |
---|---|---|
معماری GPU | NVIDIA Ampere | NVIDIA Hopper |
فرم فاکتور برد GPU | SXM4 | PCIe نسل 5 |
SMها | 108 | 114 |
TPCها | 54 | 57 |
هستههای FP32 / SM | 64 | 128 |
هستههای FP32 / GPU | 6912 | 14592 |
هستههای FP64 / SM (بدون تنسور) | 32 | 64 |
هستههای FP64 / GPU (بدون تنسور) | 3456 | 7296 |
هستههای INT32 / SM | 64 | 64 |
هستههای INT32 / GPU | 6912 | 7296 |
هستههای تنسور / SM | 4 | 4 |
هستههای تنسور / GPU | 432 | 456 |
سرعت کلاک شتاب دهنده حداکثر GPU (برای H100 نهایی نشده) 3 | 1410 MHz | نهایی نشده |
حداکثر پردازش تنسور TFLOPS با FP16 FP8 (با FP16 Accumulate) 1 | N/A | 1600/32002 |
حداکثر پردازش تنسور TFLOPS با FP32 FP8 (با FP32 Accumulate) 1 | N/A | 1600/32002 |
حداکثر پردازش تنسور TFLOPS با FP16 FP16 (با FP16 Accumulate) 1 | 312/6242 | 800/16002 |
حداکثر پردازش تنسور TFLOPS با FP32 FP16 (با FP32 Accumulate) 1 | 312/6242 | 800/16002 |
حداکثر پردازش تنسور TFLOPS با FP32 BF16 (با FP32 Accumulate) 1 | 312/6242 | 800/16002 |
حداکثر پردازش تنسور TFLOPS با FP32 TF32 1 | 156/3122 | 400/8002 |
حداکثر پردازش تنسور TFLOPS با FP64 FP64 1 | 19/5 | 48 |
حداکثر پردازش تنسور TOPS با FP32 INT8 1 | 624/12482 | 1600/32002 |
حداکثر پردازش بدون تنسور TFLOPS با FP16 FP16 1 | 78 | 96 |
حداکثر پردازش بدون تنسور TFLOPS با FP32 BF16 1 | 39 | 96 |
حداکثر پردازش بدون تنسور TFLOPS با FP32 FP32 1 | 19/5 | 48 |
حداکثر پردازش بدون تنسور TFLOPS با FP64 FP64 1 | 9 | |
اندازه حافظه | 40 یا 80 گیگابایت | 80 گیگابایت |
پهنای باند حافظه | 1555 گیگابایت بر ثانیه | 2000 گیگابایت بر ثانیه |
اولا، همانطور که از جدول بالا مشخص است، H100 دارای تعدادی Streaming Multiprocessors (SM) و مراکز پردازشگری بافت (TPC) بیشتری نسبت به A100 است، ولی تعداد قابل توجه بیشتری از تنسور کورها برای هر فرمت عددی محاسباتی و در هر SM دارد. H100 واقعاً دو برابر تعداد هستههای FP32 به ازای هر SM نسبت به A100 دارد، بیش از دو برابر تعداد هستههای FP64، تقریباً 300 هسته INT32 اضافی و 24 تنسور کور اضافی. در عمل، این افزایشها به طور مستقیم به این معناست که هر واحد پردازشی در H100 به طور جداگانه بسیار قویتر از مجموعههای مقایسهای در A100 است.
واضح است که این به طور مستقیم بر روی معیارهایی که با سرعت پردازش در ارتباط هستند اثر میگذارد، به خصوص عملکرد اوج در فرمتهای عددی محاسباتی مختلف و خود پهنای باند حافظه. صرف نظر از زمینه، H100 عملکرد بالاتری نسبت به A100 دارد. علاوه بر این، گسترش قابلیتها به FP8 با FP16 یا تجمع گرادینتهای FP32 با موتور Transformer به این معناست که انجام محاسبات دقت مختلط که A100 قادر به انجام آن نیست، امکانپذیر است. این موضوع به معنای افزایش مستقیم تقریبی 450 گیگابایت بر ثانیه به پهنای باند حافظه است که حجم دادههای قابل انتقال در یک ماشین به گیگابایت بر ثانیه را اندازهگیری میکند.

قرار دادن این موضوع در زمینه آموزش مدلهای بزرگ زبانی (LLMs)، بهبودهای تجمعی در H100 امکان یک شتاب 9 برابری در آموزش و یک افزایش 30 برابری در ظرفیتهای استنباط را گزارش میکند، به ترتیب.
چه زمانی از NVIDIA H100 استفاده کنیم؟
همانطور که در این تجزیهوتحلیل H100 نشان دادیم، H100 یک گام رو به جلو در هر جهت برای GPUهای NVIDIA است. در هر سناریوی استفاده، این محصول عملکرد برتری نسبت به بهترین GPU قبلی کلاس (A100) دارد، با افزایش نسبتاً کمی در مصرف برق، و قابلیت کار با طیف وسیعتری از فرمتهای عددی با دقت مختلط برای افزایش بیشتر این عملکرد. این مسئله هم از فناوریهای نوآورانه در GPUهای Hopper و هم از بهبودهای اعمال شده بر فناوریهای موجود و همچنین افزایش کلی به مقدار واحدهای محاسباتی موجود در ماشین آشکار است.
H100 نقطه اوج GPUهای کنونی است و برای طیف گستردهای از کاربردها طراحی شده است. این محصول عملکرد فوقالعادهای دارد و ما آن را به هر کسی که به دنبال آموزش مدلهای هوش مصنوعی و انجام سایر وظایفی که نیازمند GPU هستند، توصیه میکنیم.
در پایان
H100 امروز استاندارد طلایی برای GPUها محسوب میشود.
در حالی که گسترش نسل جدید پردازندههای گرافیکی انویدیا، موسوم به Blackwell، به زودی در ابر محاسباتی قدم خواهد گذاشت، هم اکنون H100 به همراه همتای قدرتمندتر خود H200 به عنوان بهترین ماشینها برای هرگونه کار یادگیری عمیق باقی ماندهاند.
نظرات کاربران