ในงาน GTC 2026 ของ NVIDIA สิ่งที่ได้รับความสนใจมากที่สุดไม่ใช่เพียงแค่ Vera Rubin NVL72 แต่ยังรวมถึงโมเดลการอนุมานรูปแบบใหม่ที่เกิดจากการร่วมกันของ Groq 3 LPX ระบบ AI infrastructure กำลังเปลี่ยนจากโมเดลการคำนวณที่ใช้ GPU เดียวเป็นหลัก ไปสู่โครงสร้างแบบ heterogeneous ที่เน้นการแบ่งงานเป็นส่วนๆ
Groq 3 LPX ถูกวางตำแหน่งให้เป็น accelerator สำหรับการอนุมานที่มีความหน่วงต่ำ โดยทำงานร่วมกับ Rubin GPU เพื่อเสริมจุดแข็ง ในโครงสร้างแบบดั้งเดิม GPU ต้องรับผิดชอบทั้งการประมวลผลข้อมูลบริบทยาวและการสร้าง token ทีละตัว ซึ่งเมื่อโมเดลมีขนาดและความยาวบริบทที่เพิ่มขึ้นอย่างรวดเร็ว การออกแบบแบบรวมศูนย์นี้เริ่มมีข้อจำกัดด้านประสิทธิภาพ
ดังนั้น NVIDIA จึงแยกกระบวนการอนุมานออกเป็นส่วนๆ โดยให้ Rubin GPU ทำหน้าที่ด้าน pre-processing และ attention ที่มี throughput สูง ส่วน LPX รับผิดชอบในขั้นตอน decoding ซึ่งเป็นส่วนที่ต้องการตอบสนองแบบเรียลไทม์มากที่สุด โดยเฉพาะการคำนวณ neural network แบบ feedforward และ MoE (Mixture of Experts) เมื่อปีที่แล้ว NVIDIA ได้เข้าซื้อ Groq ด้วยเงินสดประมาณ 20 พันล้านดอลลาร์ ซึ่งเป็นเหตุผลที่ Groq เน้นการออกแบบ LPU (Language Processing Unit) สำหรับ AI inference โดยเฉพาะ มีความหน่วงต่ำ ตอบสนองเสถียร และใช้พลังงานต่ำ เหมาะสำหรับแอปพลิเคชันแบบสนทนาแบบเรียลไทม์ ผู้ช่วยเสียง และอื่นๆ
(การควบรวมกิจการครั้งใหญ่ที่สุดในประวัติศาสตร์ NVIDIA: ลงทุน 640 พันล้านเพื่อซื้อเทคโนโลยี Groq และผู้สร้าง TPU ของ Google)
GPU ร่วมกับ LPU แยกการอนุมานออกเป็นส่วนๆ
การออกแบบที่เรียกว่า “Disaggregated Inference” นี้ ทำให้กระบวนการอนุมานไม่ต้องทำบนตัวประมวลผลเดียวอีกต่อไป แต่เป็นการทำงานร่วมกันระหว่าง GPU กับ LPU
ในระหว่างการทำงาน โมเดลจะสร้างบริบทและ KV cache บน GPU ก่อน จากนั้นในแต่ละรอบของการสร้าง token GPU จะทำ attention แล้วส่งผลลัพธ์ชั่วคราวให้ LPX ทำ FFN (Feedforward Network) แล้วส่งผลลัพธ์กลับไปยัง GPU เพื่อรวมผลลัพธ์สุดท้าย วิธีการแบ่งงานนี้ช่วยให้หน่วยประมวลผลแต่ละส่วนทำงานในสิ่งที่ถนัดที่สุด เพิ่มประสิทธิภาพโดยรวมอย่างมาก
NVIDIA เข้าซื้อ Groq แล้วนำ LPU มาใช้ใน LPX
แกนหลักของ LPX อยู่ที่โครงสร้าง LPU ซึ่งแตกต่างจาก GPU ที่พึ่งพาการจัดลำดับงานแบบไดนามิกและหน่วยความจำภายนอกความเร็วสูง LPU ใช้การออกแบบที่เน้นความสามารถในการทำนายล่วงหน้า โดยควบคุมการคำนวณและการไหลของข้อมูลโดยตรงผ่านคอมไพเลอร์ ช่วยลดความผันผวนของความหน่วง โครงสร้าง SRAM-first ทำให้ข้อมูลสำคัญอยู่ในชิปให้นานที่สุด ลดความไม่แน่นอนจากการเข้าถึงหน่วยความจำ ทำให้เวลาการสร้าง token แต่ละตัวมีความเสถียรมากขึ้น ซึ่งเป็นสิ่งสำคัญสำหรับแอปพลิเคชัน AI แบบโต้ตอบทันที เพราะความหน่วงส่งผลโดยตรงต่อประสบการณ์ของผู้ใช้
สเปคของตู้ LPX เปิดเผยแล้ว โดยประกอบด้วย LPU จำนวน 256 ตัว
ในด้านฮาร์ดแวร์ ตู้ LPX ประกอบด้วย LPU จำนวน 256 ตัว ซึ่งมีแบนด์วิดธ์หน่วยความจำบนชิปและการสื่อสารระหว่างชิปสูงมาก ออกแบบมาเพื่อการอนุมานที่มีความหน่วงต่ำ เมื่อเทียบกับ Rubin GPU ที่มี FLOPS สูงและหน่วยความจำความจุสูง LPX เปรียบเสมือนเครื่องยนต์ที่ปรับแต่งมาเพื่อ “เส้นทางสุดท้าย” ซึ่งรับผิดชอบในการแปลงผลลัพธ์ของโมเดลให้เป็นผลลัพธ์ที่ใช้งานได้ทันที
บทความนี้ NVIDIA GTC 2026|วิเคราะห์กลยุทธ์การควบรวม Groq มูลค่าหลายพันล้านดอลลาร์ของ NVIDIA และ LPX จะเปลี่ยนแปลงกระบวนการอนุมานอย่างไร เผยแพร่ครั้งแรกใน Chain News ABMedia