0

Nvidia H100 چیست؟

بازدید 25

بررسی پیشرفت‌های قابل توجه در معماری Hopper و GPUهای NVIDIA H100

پردازنده‌های گرافیکی NVIDIA

پردازنده‌های گرافیکی شرکت NVIDIA، ماشین‌های قدرتمندی هستند که توانایی انجام محاسبات متعدد به‌طور موازی بر روی صدها تا هزاران هسته محاسباتی مجزا را دارند. با انتشار معماری میکرویی حافران (Hopper) در سال گذشته، پردازنده NVIDIA H100 به‌عنوان یکی از قدرتمندترین رایانه‌های تکی که تاکنون در دسترس مصرف‌کنندگان قرار گرفته‌اند، به‌شدت عملکرد بالاتری نسبت به نسل قبلی ماشین‌های آمپر (Ampere) از خود نشان داده است. با هر انتشار معماری میکرو، اصطلاحی برای معماری دستورالعمل‌های پردازنده، NVIDIA بهبود قابل‌توجهی در ظرفیت VRAM، هسته‌های CUDA و پهنای باند نسبت به نسل قبلی ارائه داده است. در حالی که پردازنده‌های قدرتمند آمپر، به‌ویژه A100، انقلاب AI را طی 2 سال گذشته به‌راه انداخته‌اند؛ ما شاهد پیشرفت‌های بی‌سابقه‌ای در نرخ توسعه با پردازنده‌های حافران، به ویژه در مدل‌های H100، بوده‌ایم.

بررسی و نمایش پیشرفت‌های باورنکردنی در پردازنده گرافیکی مرکز داده‌های نوین NVIDIA: سری H100 حافران

در این مقاله، به بررسی و پیش‌نمایش برخی از پیشرفت‌های فوق‌العاده در تازه‌ترین و پیشرفته‌ترین پردازنده گرافیکی مرکز داده‌ها از نویدیا خواهیم پرداخت: سری H100 حافران.

پیش‌نیاز‌ها

محتوای این مقاله بسیار فنی است. ما خواندن این مطلب را به خوانندگانی که با هر دو موضوع سخت‌افزار کامپیوتر و مفاهیم اولیه در یادگیری عمیق آشنا هستند توصیه می‌کنیم.

بررسی ماشین: پردازنده گرافیکی NVIDIA H100

پردازنده گرافیکی NVIDIA H100 Tensor Core گامی توسعه‌ای به جلو از A100 را در چندین جنبه کلیدی نمایش می‌دهد. در این قسمت، ما به شکافتن برخی از این پیشرفت‌ها در زمینه کاربردهای یادگیری عمیق می‌پردازیم.

برای شروع، H100 دارای دومین پهنای باند حافظه کارت Peripheral Component Interconnect express (PCIe) بالاتر از H200 که به‌تازگی منتشر شده، است و در هر پردازنده گرافیکی موجود در بازار قرار دارد. با بیش از 2 ترابایت بر ثانیه، این مدل قادر به بارگذاری و کار با بزرگترین دیتاست‌ها و مدل‌ها با استفاده از 80GB حافظه VRAM خود با سرعت‌های بسیار بالاست. این امر عملکرد استثنایی را به پردازنده گرافیکی NVIDIA H100 می‌دهد، به‌ویژه برای کاربردهای AI مقیاس بزرگ.

این پهنای باند شگفت‌انگیز از طریق نسل چهارم هسته‌های Tensor در H100 امکان‌پذیر شده است که پرشی کیفی از گذشته پردازنده‌های GPU است. H100 دارای 640 هسته Tensor و 128 هسته Ray Tracing است که به پردازش داده‌های با سرعت بالا که امضای این ماشین است، کمک می‌کند. این‌ها به‌علاوه 14592 هسته CUDA برای دستیابی به 26 ترافلاپس حیرت‌انگیز در عملیات‌های دقت کامل (fp64) تکمیل می‌شوند.

علاوه بر این، تکنولوژی هسته Tensor NVIDIA H100
از طیف وسیعی از دقت‌های ریاضی پشتیبانی می‌کند و برای پردازنده‌ها در هر فعالیت محاسباتی یک شتاب‌دهنده تکی فراهم می‌آورد. پردازنده NVIDIA H100 PCIe از عملیات‌های محاسباتی دقت دوبرابر (FP64)، دقت تک‌برابر (FP32)، نصف دقت (FP16) و عملیات‌های صحیح (INT8) پشتیبانی می‌کند.

ویژگی‌های جدید در پردازنده‌های گرافیکی حافران

در معماری میکروی حافران، تعداد قابل توجهی ارتقا وجود دارد که شامل بهبود‌هایی در تکنولوژی هسته Tensor، معرفی موتور تبدیل و موارد دیگر می‌شود. بیایید به بررسی دقیق‌تر برخی از ارتقاء‌های بارزتر بپردازیم.

تنسور کورهای نسل چهارم به همراه موتور تبدیل‌کننده

شاید برجسته‌ترین به‌روزرسانی برای کاربران یادگیری عمیق یا هوش مصنوعی، نسل چهارم تنسور کورها باشد که سرعت بسیار بالایی تا ۶۰ برابر نسبت به عملکرد اوج کارآیی از نسخه Ampere Tensor Core را وعده می‌دهد. برای دستیابی به این، انویدیا موتور تبدیل‌کننده را عرضه کرده است. موتور تبدیل‌کننده‌ اختصاصی، یک جزء اساسی از هر تنسور کور است که به منظور شتاب دادن به مدل‌های ساخته‌ شده با بلوک ترانسفورمر در معماری خود طراحی شده است، بدین طریق محاسبات می‌توانند به صورت پویا در فرمت‌های مخلوط FP8 و FP16 رخ دهند.

شکل 1: موتور تبدیل‌کننده

از آنجا که تعداد عملیات ممیز شناور در تنسور کورهای FP8 دو برابر نسخه 16 بیتی است، اجرای مدل‌های یادگیری عمیق در این فرمت‌ها به منظور کاهش هزینه، بسیار مطلوب است. با این حال، این می‌تواند دقت مدل را به شکل قابل توجه‌ای کاهش دهد. نوآوری موتور تبدیل‌کننده ممکن ساخته است تا برای جبران از دست رفتن دقت از استفاده از فرمت رایانش FP8، در حالی که همچنان از افزایش ظرفیت عبور FP16 بسیار استفاده کند. این به دلیل این ممکن است که موتور تبدیل‌کننده قادر به جابجایی پویای بین فرمت‌ها در هر لایه از مدل، در صورت نیاز، است. (شکل 1) علاوه بر این، “معماری انویدیا هوپر به ویژه توسط سه برابر کردن عملیات ممیز شناور در هر ثانیه در مقایسه با پیش‌نسل‌های TF32، FP64، FP16 و INT8 پیشرفت کرده است.”

نسل دوم امنیت MIG

MIG

MIG یا Multi Instance GPU فناوری است که امکان تقسیم یک GPU به نمونه‌های مجزا و معزول را فراهم می‌آورد، که هر کدام از آنها حافظه، کش و هسته‌های محاسباتی خود را دارند. در H100s، فناوری MIG نسل دوم این قابلیت را بیشتر تقویت می‌کند با این که امکان تقسیم GPU را به هفت نمونه امن GPU با پیکربندی‌های چندین مستأجری و چند کاربری در محیط‌‌های مجازی مهیا می‌کند.

در عمل، این امکان سهیم کردن GPU را با درجه بالایی از امنیت ساخت درونی فراهم می‌آورد و یکی از ویژگی‌های کلیدی است که H100s را بسیار عالی برای کاربران در ابر می‌سازد. هر یک از نمونه‌ها دارای مرمزکننده‌های ویدئویی اختصاصی هستند که برای تحویل تحلیل‌های ویدئویی هوشمند (IVA) در مورد زیرساخت‌های سهیم شده مستقیماً به سیستم‌های مانیتورینگ عمل می‌کنند، و مدیران می‌توانند اختصاص‌های منابع به کاربران را با استفاده از پروفایل‌کردن MIG همزمان هوپر مانیتور و بهینه‌سازی کنند.

NVLink و NVSwitch فناوری‌های GPU انویدیا هستند که اتصال چندین GPU ها را به یکدیگر در یک سیستم یکپارچه تسهیل می‌کنند. تکنولوژی‌های گرافیکی پیشرفته و امنیت اطلاعات در معماری Hopper

محاسبات محرمانه

محاسبات محرمانه

یکی از دغدغه‌های متداول در عصر دیتای بزرگ (Big Data)، موضوع امنیت است. در حالی که داده‌ها اغلب در حالت‌های رمزگذاری شده ذخیره‌سازی یا انتقال داده می‌شوند، این امر هیچ محافظتی در برابر عوامل خرابکاری که ممکن است به داده‌ها در حین پردازش دسترسی پیدا کنند، فراهم نمی‌کند. با ارائه معماری میکرو پردازنده‌ی Hopper، انویدیا راه‌حل نوآورانه‌ای برای این مشکل معرفی نمود: محاسبات محرمانه. این تکنولوژی بسیاری از ریسک‌های سرقت داده‌ها در حین فرآیند پردازش را با ایجاد یک فضای فیزیکی داده که در آن بارهای کاری به طور مستقل از بقیه سیستم کامپیوتری پردازش می‌شوند، از بین می‌برد. با پردازش تمام بار کاری در محیط اجرایی مطمئن و غیرقابل دسترسی، دسترسی به داده‌های محافظت شده مشکل‌تر می‌شود.

H100 در مقابل A100

میکرو پردازنده‌ی NVIDIA H100 نمایانگر پیشرفت قابل توجه‌ای در تقریباً تمام جنبه‌ها از پیش‌نیاز خود یعنی A100 است. این بهبودها فقط محدود به فناوری‌های جدیدی که پیش‌تر بحث شد نمی‌شوند، بلکه شامل بهبودهای کمی عمومی در قدرت پردازشی که توسط یک ماشین تک‌گانه ارائه می‌شود، نیز می‌گردند.

مقایسه مشخصات مرتبط با GPU‌‌های H100 و A100:

ویژگی‌های GPUNVIDIA A100NVIDIA H100 PCIe1
معماری GPUNVIDIA AmpereNVIDIA Hopper
فرم فاکتور برد GPUSXM4PCIe نسل 5
SM‌ها108114
TPC‌ها5457
هسته‌های FP32 / SM64128
هسته‌های FP32 / GPU691214592
هسته‌های FP64 / SM (بدون
تنسور)
3264
هسته‌های FP64 / GPU (بدون
تنسور)
34567296
هسته‌های INT32 / SM6464
هسته‌های INT32 / GPU69127296
هسته‌های تنسور / SM44
هسته‌های تنسور / GPU432456
سرعت کلاک شتاب دهنده حداکثر GPU (برای H100 نهایی نشده) 31410 MHzنهایی نشده
حداکثر پردازش تنسور TFLOPS با FP16 FP8 (با FP16 Accumulate) 1N/A1600/32002
حداکثر پردازش تنسور TFLOPS با FP32 FP8 (با FP32 Accumulate) 1N/A1600/32002
حداکثر پردازش تنسور TFLOPS با FP16 FP16 (با FP16 Accumulate) 1312/6242800/16002
حداکثر پردازش تنسور TFLOPS با FP32 FP16 (با FP32 Accumulate) 1312/6242800/16002
حداکثر پردازش تنسور TFLOPS با FP32 BF16 (با FP32 Accumulate) 1312/6242800/16002
حداکثر پردازش تنسور TFLOPS با FP32 TF32 1156/3122400/8002
حداکثر پردازش تنسور TFLOPS با FP64 FP64 119/548
حداکثر پردازش تنسور TOPS با FP32 INT8 1624/124821600/32002
حداکثر پردازش بدون تنسور TFLOPS با FP16 FP16 17896
حداکثر پردازش بدون تنسور TFLOPS با FP32 BF16 13996
حداکثر پردازش بدون تنسور TFLOPS با FP32 FP32 119/548
حداکثر پردازش بدون تنسور TFLOPS با FP64 FP64 19
اندازه حافظه40 یا 80 گیگابایت80 گیگابایت
پهنای باند حافظه1555 گیگابایت بر ثانیه2000 گیگابایت بر ثانیه

اولا، همانطور که از جدول بالا مشخص است، H100 دارای تعدادی Streaming Multiprocessors (SM) و مراکز پردازشگری بافت (TPC) بیشتری نسبت به A100 است، ولی تعداد قابل توجه بیشتری از تنسور کورها برای هر فرمت عددی محاسباتی و در هر SM دارد. H100 واقعاً دو برابر تعداد هسته‌های FP32 به ازای هر SM نسبت به A100 دارد، بیش از دو برابر تعداد هسته‌های FP64، تقریباً 300 هسته INT32 اضافی و 24 تنسور کور اضافی. در عمل، این افزایش‌ها به طور مستقیم به این معناست که هر واحد پردازشی در H100 به طور جداگانه بسیار قوی‌تر از مجموعه‌های مقایسه‌ای در A100 است.

واضح است که این به طور مستقیم بر روی معیارهایی که با سرعت پردازش در ارتباط هستند اثر می‌گذارد، به خصوص عملکرد اوج در فرمت‌های عددی محاسباتی مختلف و خود پهنای باند حافظه. صرف نظر از زمینه، H100 عملکرد بالاتری نسبت به A100 دارد. علاوه بر این، گسترش قابلیت‌ها به FP8 با FP16 یا تجمع گرادینت‌های FP32 با موتور Transformer به این معناست که انجام محاسبات دقت مختلط که A100 قادر به انجام آن نیست، امکان‌پذیر است. این موضوع به معنای افزایش مستقیم تقریبی 450 گیگابایت بر ثانیه به پهنای باند حافظه است که حجم داده‌های قابل انتقال در یک ماشین به گیگابایت بر ثانیه را اندازه‌گیری می‌کند.

تصویر 2: مقایسه آموزش H100 در مقابل A100

قرار دادن این موضوع در زمینه آموزش مدل‌های بزرگ زبانی (LLMs)، بهبودهای تجمعی در H100 امکان یک شتاب 9 برابری در آموزش و یک افزایش 30 برابری در ظرفیت‌های استنباط را گزارش می‌کند، به ترتیب.

چه زمانی از NVIDIA H100 استفاده کنیم؟

همانطور که در این تجزیه‌وتحلیل H100 نشان دادیم، H100 یک گام رو به جلو در هر جهت برای GPUهای NVIDIA است. در هر سناریوی استفاده، این محصول عملکرد برتری نسبت به بهترین GPU قبلی کلاس (A100) دارد، با افزایش نسبتاً کمی در مصرف برق، و قابلیت کار با طیف وسیع‌تری از فرمت‌های عددی با دقت مختلط برای افزایش بیشتر این عملکرد. این مسئله هم از فناوری‌های نوآورانه در GPUهای Hopper و هم از بهبودهای اعمال شده بر فناوری‌های موجود و همچنین افزایش کلی به مقدار واحدهای محاسباتی موجود در ماشین آشکار است.

H100 نقطه اوج GPUهای کنونی است و برای طیف گسترده‌ای از کاربردها طراحی شده است. این محصول عملکرد فوق‌العاده‌ای دارد و ما آن را به هر کسی که به دنبال آموزش مدل‌های هوش مصنوعی و انجام سایر وظایفی که نیازمند GPU هستند، توصیه می‌کنیم.

در پایان

H100 امروز استاندارد طلایی برای GPUها محسوب می‌شود.

در حالی که گسترش نسل جدید پردازنده‌های گرافیکی انویدیا، موسوم به Blackwell، به زودی در ابر محاسباتی قدم خواهد گذاشت، هم اکنون H100 به همراه همتای قدرتمندتر خود H200 به عنوان بهترین ماشین‌ها برای هرگونه کار یادگیری عمیق باقی مانده‌اند.

نظرات کاربران

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *