บทความ

กำลังแสดงโพสต์จาก เมษายน, 2024

RWKV: เมื่อ transformer ยังช้าเกินไป

รูปภาพ
ปัจจุบันนี้กระแส  LLM กำลังมา transformer จำพวก decoder model กลายเป็นกระแสหลัก  ด้วยความสามารถหลายด้านที่มาพร้อมกับขนาดโมเดลที่ใหญ่ขึ้น  แต่ด้วยขนาดกับสถาปัตยกรรม transformer จึงต้องการ resource  ที่ค่อนข้างโหดทั้ง GPU กับ CPU รวมถึงฮาร์ดแวร์เร่งความเร็ว กับเทคนิคต่าง  ๆ ในการย่อขนาดกับเร่งความเร็วแต่แลกมาด้วยประสิทธิภาพที่ลดลงไปด้วย  ทำให้ผู้คนบางส่วนหันไปมอง ออกแบบสถาปัตยกรรมอื่น ๆ หนึ่งในนั้น คือ RWKV  ที่นำข้อดี RNN กับ transformer (parallelizable) มารวมกัน Receptance  Weighted Key Value (RWKV) เป็นโมเดลที่นำความสามารถเทรนแบบขนาน  (parallelizable) ของ transformer เมื่อตอนเทรนโมเดล  และประสิทธิภาพในการใช้งานแบบ RNN มารวมกัน อย่างที่เรารู้กันว่า RNN  ไม่สามารถเทรนแบบขนาน (parallelizable) ได้ โดย RWKV แก้ไขจุดนี้ไป  โดยมีการพัฒนามาสองปีกว่า และได้รับการตีพิมพ์ใน EMNLP 2023 แบบ findings  ซึ่งใน paper นี้เป็น RWKV-4 แต่ปัจจุบัน RWKV พัฒนามาจนถึง RWKV-6 แล้ว RWKV-6  เป็นโมเดล RWKV รุ่นที่ 6 เป็น Open source (Apache 2.0 license)  รองรับทั้งภาษาไทย ภาษาอังกฤษและอีกว่า 100+ ภาษา  ส่วนประสิ