RWKV: เมื่อ transformer ยังช้าเกินไป
ปัจจุบันนี้กระแส LLM กำลังมา transformer จำพวก decoder model กลายเป็นกระแสหลัก ด้วยความสามารถหลายด้านที่มาพร้อมกับขนาดโมเดลที่ใหญ่ขึ้น แต่ด้วยขนาดกับสถาปัตยกรรม transformer จึงต้องการ resource ที่ค่อนข้างโหดทั้ง GPU กับ CPU รวมถึงฮาร์ดแวร์เร่งความเร็ว กับเทคนิคต่าง ๆ ในการย่อขนาดกับเร่งความเร็วแต่แลกมาด้วยประสิทธิภาพที่ลดลงไปด้วย ทำให้ผู้คนบางส่วนหันไปมอง ออกแบบสถาปัตยกรรมอื่น ๆ หนึ่งในนั้น คือ RWKV ที่นำข้อดี RNN กับ transformer (parallelizable) มารวมกัน Receptance Weighted Key Value (RWKV) เป็นโมเดลที่นำความสามารถเทรนแบบขนาน (parallelizable) ของ transformer เมื่อตอนเทรนโมเดล และประสิทธิภาพในการใช้งานแบบ RNN มารวมกัน อย่างที่เรารู้กันว่า RNN ไม่สามารถเทรนแบบขนาน (parallelizable) ได้ โดย RWKV แก้ไขจุดนี้ไป โดยมีการพัฒนามาสองปีกว่า และได้รับการตีพิมพ์ใน EMNLP 2023 แบบ findings ซึ่งใน paper นี้เป็น RWKV-4 แต่ปัจจุบัน RWKV พัฒนามาจนถึง RWKV-6 แล้ว RWKV-6 เป็นโมเดล RWKV รุ่นที่ 6 เป็น Open source (Apache 2.0...