Thai NLP

บทความ

RWKV: เมื่อ transformer ยังช้าเกินไป

ปัจจุบันนี้กระแส LLM กำลังมา transformer จำพวก decoder model กลายเป็นกระแสหลัก ด้วยความสามารถหลายด้านที่มาพร้อมกับขนาดโมเดลที่ใหญ่ขึ้น แต่ด้วยขนาดกับสถาปัตยกรรม transformer จึงต้องการ resource ที่ค่อนข้างโหดทั้ง GPU กับ CPU รวมถึงฮาร์ดแวร์เร่งความเร็ว กับเทคนิคต่าง ๆ ในการย่อขนาดกับเร่งความเร็วแต่แลกมาด้วยประสิทธิภาพที่ลดลงไปด้วย ทำให้ผู้คนบางส่วนหันไปมอง ออกแบบสถาปัตยกรรมอื่น ๆ หนึ่งในนั้น คือ RWKV ที่นำข้อดี RNN กับ transformer (parallelizable) มารวมกัน Receptance Weighted Key Value (RWKV) เป็นโมเดลที่นำความสามารถเทรนแบบขนาน (parallelizable) ของ transformer เมื่อตอนเทรนโมเดล และประสิทธิภาพในการใช้งานแบบ RNN มารวมกัน อย่างที่เรารู้กันว่า RNN ไม่สามารถเทรนแบบขนาน (parallelizable) ได้ โดย RWKV แก้ไขจุดนี้ไป โดยมีการพัฒนามาสองปีกว่า และได้รับการตีพิมพ์ใน EMNLP 2023 แบบ findings ซึ่งใน paper นี้เป็น RWKV-4 แต่ปัจจุบัน RWKV พัฒนามาจนถึง RWKV-6 แล้ว RWKV-6 เป็นโมเดล RWKV รุ่นที่ 6 เป็น Open source (Apache 2.0...

อ่านต่อ

ลองทำ Text classification สำหรับงานด้าน Quantum Natural Language Processing

มิถุนายน 14, 2563

จากบทความ " เขียน Quantum Machine Learning ได้ด้วย PennyLane " และอบรม Natural Language Processingand Its Relation to Quantum Computing ของดร. ปรัชญา บุญขวัญ ผมได้ไปเจอบทความ "Classifying Documents with Quantum-enhanced Transfer Learning" ของ Riccardo Di Sipio ซึ่งนำ PennyLane มาทำ Text classification ซึ่งเป็นงานด้าน Quantum Natural Language Processing ด้วย Quantum Machine Learning ผมนำโค้ดจาก https://github.com/rdisipio/qnlp ของบทความดังกล่าว มาปรับแต่งโค้ดให้รองรับภาษาไทย และทดลองด้วยจำนวน layers ที่มากขึ้นเปรียบเทียบกัน นำมาใช้ลองกับ ชุดข้อมูล truevoice-intent เปลี่ยนอะไรบ้างจากโค้ดต้นฉบับ? เปลี่ยนชุดข้อมูลมาใช้ ชุดข้อมูล truevoice-intent เปลี่ยนจาก Universal Sentence Encoder (USE) มาใช้ Multilingual Universal Sentence Encoder แทน ปรับ lr มาเป็น 0.01 เปลี่ยนจำนวนคิวบิตที่ใช้ทดสอบ โดยทั้งหมด Train จำนวน 20 ep แบ่ง valid 0.15 และ test ด้วยชุด test ของชุดข้อมูล truevoice-intent เรามาลองทำ Text classification สำหรับงานด้าน Quantum Natural Language ...

อ่านต่อ

Build CRF++ ใน Windows

ธันวาคม 08, 2560

CRF++ เป็นเครื่องมือสำหรับใช้ในงาน NLP ที่เป็นที่นิยมกัน เราสามารถ Build CRF++ ใน Windows ได้โดยใช้โค้ดจาก GitHub : https://github.com/DjangoPeng/CRF

อ่านต่อ

ทำ POS tagging ภาษาไทยโดยใช้ Neural Network ด้วย nlpnet

สิงหาคม 10, 2560

nlpnet เป็นเครื่องมือสำหรับใช้ทำ part-of-speech tagging, semantic role labeling และ dependency parsing โดยใช้ Neural Network โดยรันบน Python 2.7 (ไม่รองรับ Windows) และเป็น MIT License การติดตั้ง ใช้คำสั่ง $ pip install nlpnet การเตรียมข้อมูลภาษาไทย เราใช้ข้อมูล orchid มาทำเป็น CoNLL format ตั้งชื่อว่า thaipostag.txt ที่มี 4 column ตามตัวอย่างนี้ 1 การ _ FIXN 2 ประชุม _ VACT 3 ทาง _ NCMN 4 วิชาการ _ NCMN 5 <space> _ PUNC 6 ครั้ง _ CFQC 7 ที่1 _ DONM column แรกเป็นลำดับประโยค column ที่ 2 เป็นคำ และอันสุดท้ายเป็น POS tagging กำกับแต่ละคำ โหลดไฟล์ข้อมูลที่จัดทำไว้ได้จาก https://gist.github.com/wannaph...

อ่านต่อ

แยกคำนามเฉพาะภาษาไทยโดยใช้ RegexpParser ด้วย NLTK

สิงหาคม 08, 2560

เนื่องจากภาษาไทย ยังไม่มีใครทำ ne_chunk แต่เรายังสามารถแยกคำนามเฉพาะ (Proper Noun) ออกได้ด้วย part-of-speech tagger ที่มีคนทำไว้ได้ครับ โดยใช้ RegexpParser

อ่านต่อ

ทดลองตัดคำภาษาไทยด้วย Unsupervised Learning จากกูเกิล

สิงหาคม 05, 2560

เมื่อ 2 เดือนที่ผ่านมา กูเกิลได้แอบเปิด Unsupervised Learning สำหรับตัดคำและ detokenizer สำหรับข้อความที่ใช้ Neural Network สร้างระบบ ชื่อว่า SentencePiece โดยเป็นผลิตภัณฑ์อย่างไม่เป็นทางการของกูเกิล ข้อดีของ Unsupervised Learning คือ ไม่ต้องเตรียมข้อมูลสำหรับใช้ฝึกและไม่ต้องกำหนดหลักเกณฑ์ในการเรียนรู้ ข้อเสีย ต้องใช้ข้อมูลจำนวนมากในการ train ทำการติดตั้ง SentencePiece โดยทำตาม https://github.com/google/sentencepiece#build-and-install-sentencepiece ในการทดลองตัดคำภาษาไทยโดยใช้ SentencePiece นั้น เราได้นำข้อมูลชุดทดสอบ สำหรับการคำนวนหาค่าประสิทธิภาพของโปรแกรมแบ่งคำ (500,000 คำ) โหลดได้จาก http://thailang.nectec.or.th/downloadcenter/index.php?option=com_docman&task=cat_view&gid=39&Itemid=61 มาใช้งานทดสอบ แตกไฟล์ TEST_500K.txt ออกมา สั่ง $ spm_train --input=/home/wannaphong/thainlp/data/TEST_500K.txt --model_prefix=thai1 --model_type=unigram --input คือ ที่ตั้งไฟล์ txt สำหรับใช้ในการ train --model_prefix ชื่อ model --model_type ชนิดของ model มีทั้ง unigram (ค่...

อ่านต่อ

สร้าง Corpus ใหม่ที่เหมือน BEST I Corpus

มิถุนายน 15, 2560

BEST I Corpus เป็นคลังข้อมูลสำหรับใช้ฝึกระบบตัดคำภาษาไทย เป็นผลงานของ Nectec หากเราต้องการสร้างสร้าง Corpus ใหม่สำหรับใช้ฝึกระบบตัดคำภาษาไทย

อ่านเพิ่มเติม