Build CRF++ ใน Windows รับลิงก์ Facebook X Pinterest อีเมล แอปอื่นๆ ธันวาคม 08, 2560 CRF++ เป็นเครื่องมือสำหรับใช้ในงาน NLP ที่เป็นที่นิยมกัน เราสามารถ Build CRF++ ใน Windows ได้โดยใช้โค้ดจาก GitHub : https://github.com/DjangoPeng/CRF รับลิงก์ Facebook X Pinterest อีเมล แอปอื่นๆ ความคิดเห็น
สร้าง Corpus ใหม่ที่เหมือน BEST I Corpus มิถุนายน 15, 2560 BEST I Corpus เป็นคลังข้อมูลสำหรับใช้ฝึกระบบตัดคำภาษาไทย เป็นผลงานของ Nectec หากเราต้องการสร้างสร้าง Corpus ใหม่สำหรับใช้ฝึกระบบตัดคำภาษาไทย อ่านเพิ่มเติม
RWKV: เมื่อ transformer ยังช้าเกินไป เมษายน 12, 2567 ปัจจุบันนี้กระแส LLM กำลังมา transformer จำพวก decoder model กลายเป็นกระแสหลัก ด้วยความสามารถหลายด้านที่มาพร้อมกับขนาดโมเดลที่ใหญ่ขึ้น แต่ด้วยขนาดกับสถาปัตยกรรม transformer จึงต้องการ resource ที่ค่อนข้างโหดทั้ง GPU กับ CPU รวมถึงฮาร์ดแวร์เร่งความเร็ว กับเทคนิคต่าง ๆ ในการย่อขนาดกับเร่งความเร็วแต่แลกมาด้วยประสิทธิภาพที่ลดลงไปด้วย ทำให้ผู้คนบางส่วนหันไปมอง ออกแบบสถาปัตยกรรมอื่น ๆ หนึ่งในนั้น คือ RWKV ที่นำข้อดี RNN กับ transformer (parallelizable) มารวมกัน Receptance Weighted Key Value (RWKV) เป็นโมเดลที่นำความสามารถเทรนแบบขนาน (parallelizable) ของ transformer เมื่อตอนเทรนโมเดล และประสิทธิภาพในการใช้งานแบบ RNN มารวมกัน อย่างที่เรารู้กันว่า RNN ไม่สามารถเทรนแบบขนาน (parallelizable) ได้ โดย RWKV แก้ไขจุดนี้ไป โดยมีการพัฒนามาสองปีกว่า และได้รับการตีพิมพ์ใน EMNLP 2023 แบบ findings ซึ่งใน paper นี้เป็น RWKV-4 แต่ปัจจุบัน RWKV พัฒนามาจนถึง RWKV-6 แล้ว RWKV-6 เป็นโมเดล RWKV รุ่นที่ 6 เป็น Open source (Apache 2.0 license) รองรับทั้งภาษาไทย ภาษาอังกฤษและอีกว่า 100+ ภาษา ส่วนประสิ อ่านต่อ
ทำ POS tagging ภาษาไทยโดยใช้ Neural Network ด้วย nlpnet สิงหาคม 10, 2560 nlpnet เป็นเครื่องมือสำหรับใช้ทำ part-of-speech tagging, semantic role labeling และ dependency parsing โดยใช้ Neural Network โดยรันบน Python 2.7 (ไม่รองรับ Windows) และเป็น MIT License การติดตั้ง ใช้คำสั่ง $ pip install nlpnet การเตรียมข้อมูลภาษาไทย เราใช้ข้อมูล orchid มาทำเป็น CoNLL format ตั้งชื่อว่า thaipostag.txt ที่มี 4 column ตามตัวอย่างนี้ 1 การ _ FIXN 2 ประชุม _ VACT 3 ทาง _ NCMN 4 วิชาการ _ NCMN 5 <space> _ PUNC 6 ครั้ง _ CFQC 7 ที่1 _ DONM column แรกเป็นลำดับประโยค column ที่ 2 เป็นคำ และอันสุดท้ายเป็น POS tagging กำกับแต่ละคำ โหลดไฟล์ข้อมูลที่จัดทำไว้ได้จาก https://gist.github.com/wannaphongcom/a8224d8fb19eb32c3c86335e180bcc9e จากนั้น ทำการโหลดไฟล์ nlpnet-train.py จาก https://github.com/erickrf/nlpnet/raw/master/bin/nlpnet-train.py มาไว้ แล้วเปิดคอมมาไลน์ ใช้คำสั่ง $ python nlpnet-train.py pos --gold ที่ตั้งไฟล์thaipostag.txt -e จำนวนที่ต้องการtrain(ค่าเริ่มต้นคือ15) โดยเมื่อสั่ง $ python อ่านต่อ
ความคิดเห็น
แสดงความคิดเห็น