RWKV: เมื่อ transformer ยังช้าเกินไป

ปัจจุบันนี้กระแส  LLM กำลังมา transformer จำพวก decoder model กลายเป็นกระแสหลัก  ด้วยความสามารถหลายด้านที่มาพร้อมกับขนาดโมเดลที่ใหญ่ขึ้น  แต่ด้วยขนาดกับสถาปัตยกรรม transformer จึงต้องการ resource  ที่ค่อนข้างโหดทั้ง GPU กับ CPU รวมถึงฮาร์ดแวร์เร่งความเร็ว กับเทคนิคต่าง  ๆ ในการย่อขนาดกับเร่งความเร็วแต่แลกมาด้วยประสิทธิภาพที่ลดลงไปด้วย  ทำให้ผู้คนบางส่วนหันไปมอง ออกแบบสถาปัตยกรรมอื่น ๆ หนึ่งในนั้น คือ RWKV  ที่นำข้อดี RNN กับ transformer (parallelizable) มารวมกัน


Receptance  Weighted Key Value (RWKV) เป็นโมเดลที่นำความสามารถเทรนแบบขนาน  (parallelizable) ของ transformer เมื่อตอนเทรนโมเดล  และประสิทธิภาพในการใช้งานแบบ RNN มารวมกัน อย่างที่เรารู้กันว่า RNN  ไม่สามารถเทรนแบบขนาน (parallelizable) ได้ โดย RWKV แก้ไขจุดนี้ไป  โดยมีการพัฒนามาสองปีกว่า และได้รับการตีพิมพ์ใน EMNLP 2023 แบบ findings  ซึ่งใน paper นี้เป็น RWKV-4 แต่ปัจจุบัน RWKV พัฒนามาจนถึง RWKV-6 แล้ว


RWKV-6  เป็นโมเดล RWKV รุ่นที่ 6 เป็น Open source (Apache 2.0 license)  รองรับทั้งภาษาไทย ภาษาอังกฤษและอีกว่า 100+ ภาษา  ส่วนประสิทธิภาพค่อนข้างดีเมื่อเทียบกับโมเดลที่มีขนาดเดียวกันที่เป็น  transformer decoder model แถมดีกว่า mamba


ข้อดี
-ทำงานได้ไวกว่า transformer decoder model มาก ทั้งใน CPU แบบไม่มี GPU และแบบมี GPU
-ไม่มีข้อจำกัดเรื่องจำนวน ctx หรือจำนวนโทเคน
ข้อเสีย
-โมเดลอ่อนไหวต่อการ prompt ค่อนข้างสูง
-ไม่เก่งเรื่องมองย้อนกลับ เช่น บทความ คำถาม (จงตอบคำถามจากบทความข้างบน...) ต้องเปลี่ยนเป็น คำถาม (จงตอบคำถามจากบทความข้างล่าง..)
-ภาษาไทยทำงานแบบ character level (แต่ก็ยังเร็วกว่า transformer)

เข้าไปลองเล่นกันได้ที่ https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-1

Paper สำหรับอ่านเพิ่มเติม:
-(RWKV-4 ตัวเก่า) RWKV: Reinventing RNNs for the Transformer Era https://aclanthology.org/2023.findings-emnlp.936/
-(RWKV-5 กับ RWKV-6) Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence https://arxiv.org/abs/2404.05892

เว็บไซต์ https://www.rwkv.com/
โมเดลบน HuggingFace: https://huggingface.co/RWKV
ทวีต eval: https://twitter.com/BlinkDL_AI/status/1773503808221712722

 
นอกจากนี้  RWKV ยังอยู่ในช่วงจัดตั้ง ภายใต้ LF AI & Data Foundation ของ Linux  Foundation (องค์กรที่ดูแล Open Source ระดับโลก) อีกด้วย  สามารถมั่นใจในการพัฒนาได้ระดับหนึ่ง  https://lfaidata.foundation/projects/rwkv/




ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

สร้าง Corpus ใหม่ที่เหมือน BEST I Corpus

ทำ POS tagging ภาษาไทยโดยใช้ Neural Network ด้วย nlpnet

ทดลองตัดคำภาษาไทยด้วย Unsupervised Learning จากกูเกิล