NVIDIA GTC 2026|تحليل استراتيجية NVIDIA لاستحواذ Groq بقيمة مليارات الدولارات، كيف سيغير LPX عملية الاستدلال

ChainNewsAbmedia

في مؤتمر GTC 2026 لشركة نيفيديا، لم يكن الاهتمام يتركز فقط على Vera Rubin NVL72، بل أيضًا على نمط الاستنتاج الجديد الذي يتشكل من خلال دمجها مع Groq 3 LPX. تتجه بنية البنية التحتية للذكاء الاصطناعي من نمط الحوسبة الذي تسيطر عليه وحدة معالجة الرسومات (GPU) المفردة إلى بنية متغايرة تعتمد على تقسيم المهام.

يُصنف Groq 3 LPX كمسرع مخصص لمعالجة الاستنتاج منخفض التأخير، ويتكامل بشكل مكمل مع GPU Rubin. في البنى التقليدية، يجب على GPU أن يتولى مسؤولية معالجة المدخلات ذات السياق الطويل والتوليد التدريجي لكل رمز، ومع تزايد حجم النماذج وطول السياق بسرعة، بدأت هذه التصاميم الموحدة تظهر قيودًا على الكفاءة.

لذلك، قامت نيفيديا بتفكيك عملية الاستنتاج، بحيث يركز GPU Rubin على المعالجة المسبقة عالية الإنتاجية وحساب الانتباه، بينما يتولى LPX المرحلة التي تعتمد بشكل كبير على الاستجابة الفورية، خاصة في حسابات الشبكات العصبية الأمامية وخبراء MoE. في العام الماضي، استحوذت نيفيديا على Groq مقابل حوالي 20 مليار دولار نقدًا، وهو السبب وراء ذلك. يتميز Groq بهيكل LPU (وحدة معالجة اللغة) المصمم خصيصًا لاستنتاج الذكاء الاصطناعي، مع تأخير منخفض جدًا، واستجابة مستقرة، وكفاءة عالية، مما يجعله مثاليًا للمحادثات الفورية، والمساعدات الصوتية، وغيرها من السيناريوهات.

(أكبر صفقة استحواذ في تاريخ نيفيديا: استثمار بقيمة 640 مليار دولار للحصول على تقنيات Groq وGoogle TPU الأب)

تعاون GPU مع LPU يفصل عملية الاستنتاج

هذا التصميم المعروف باسم “الاستنتاج المفكك” (Disaggregated Inference) يجعل عملية الاستنتاج لا تتم بواسطة معالج واحد، بل من خلال التعاون بين GPU وLPU.

عند التشغيل الفعلي، يقوم النموذج أولاً بإنشاء السياق وKV cache على GPU، ثم في دورة توليد كل رمز، يعالج GPU الانتباه، ويُمرر النتائج الوسيطة إلى LPX لتنفيذ حسابات FFN، وأخيرًا يُرجع الناتج إلى GPU لتجميع المخرجات. يتيح هذا التقسيم أن تتخصص وحدات الحوسبة المختلفة في معالجة الأجزاء التي تتقنها، مما يعزز الكفاءة بشكل كبير.

استحواذ نيفيديا على Groq وتطبيق LPU الخاص بها على LPX

يرتكز جوهر LPX على هيكل LPU الخاص بها. على عكس GPU الذي يعتمد على الجدولة الديناميكية وذاكرة خارجية عالية العرض الترددي، تعتمد LPU على تصميم يركز على التنبؤ، حيث يتحكم المترجم البرمجي مباشرة في العمليات وتدفق البيانات، مما يقلل من تقلبات التأخير. يعتمد هيكل SRAM الأولي على إبقاء البيانات الحيوية داخل الشريحة قدر الإمكان، مما يقلل من عدم اليقين الناتج عن الوصول إلى الذاكرة، ويجعل زمن توليد كل رمز أكثر استقرارًا. تعتبر هذه الخاصية حاسمة للتطبيقات التفاعلية الفورية للذكاء الاصطناعي، حيث يؤثر التأخير مباشرة على تجربة المستخدم.

تم الكشف عن مواصفات حاوية LPX، المكونة من 256 وحدة LPU

من حيث الحجم المادي، تتكون حاوية LPX من 256 وحدة LPU، وتتمتع بسرعة عالية في الذاكرة على الرقاقة وقدرة على التواصل بين الرقائق، مصممة خصيصًا للاستنتاج منخفض التأخير. بالمقارنة مع GPU Rubin الذي يتميز بعدد عمليات حسابية عالية وذاكرة كبيرة، فإن LPX يشبه محركًا مخصصًا لتحسين “المرحلة الأخيرة”، مسؤول عن تحويل مخرجات النموذج إلى نتائج فورية قابلة للاستخدام.

هذه المقالة نُشرت أولاً على Chain News ABMedia بعنوان “تحليل استراتيجية استحواذ نيفيديا بمليارات الدولارات على Groq، وكيف يغير LPX عملية الاستنتاج”.

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات