Thai NLP

บทความ

Data Contamination - เมื่อชุดข้อมูลทดสอบหลุดไปในการเทรนโมเดล

การปนเปื้อนของข้อมูล (Data Contamination) เป็นประเด็นเมื่อไม่นานมานี้ หลังจากการเริ่มมีการรายงานการปนเปื้อนของชุดข้อมูลทดสอบไปในโมเดลต่าง ๆ ไม่ว่าจะเป็นโมเดลเชิงการค้า (GPT-4 and other), Open-weight, และ open source เพราะการปนเปื้อนของข้อมูลทดสอบในการเทรนโมเดล ทำให้โมเดลได้คะแนนสูงกว่าความเป็นจริง แถมทำให้การวัดผลด้วยชุดข้อมูลที่ปนเปื้อนไม่สามารถบ่งบอกความสามารถที่แท้จริงของโมเดลได้ จึงเริ่มมีการทำ The 1st Workshop on Data Contamination (CONDA) ที่จะเกิดขึ้นใน ACL 2024 วันที่ 16 สิงหาคม ณ กรุงเทพมหานคร ที่จะถึงนี้ และได้มีการทำ Data Contamination Database เพื่อรวบรวมการรายงานการปนเปื้อนของข้อมูล เพื่อให้นักวิจัยเข้าใจขอบเขตของปัญหาและหลีกเลี่ยงกับใช้ชุดข้อมูลที่มีการปนเปื้อนในการรายงานผลหรือทดสอบโมเดล The 1st Workshop on Data Contamination (CONDA): https://conda-workshop.github.io/ . Data Contamination Report from the 2024 CONDA Shared Task: https://arxiv.org/abs/2407.21530 . Data Contamination Database: https://huggingface.co/spaces/CONDA-Workshop/Data-Contamination-Database

อ่านต่อ

HPLT/hplt_bert_base_th: LTG-BERT ภาษาไทย!

พฤษภาคม 09, 2567

ปัจจุบัน แม้ว่า masked language model จะถูก LLM กลบไป แต่ฝั่ง masked language model ยังคงมีการพัฒนาต่อเนื่องอยู่ หนึ่งในนั้นคือ LTG-BERT ที่เป็น data-efficient masked language model เทรนด้วยข้อมูลจำกัด (ทดสอบด้วย British National Corpus ที่มี 100M tokens) แต่ประสิทธิภาพดีกว่า BERT ตัวหลัก ไม่จำเป็นต้องเทรนด้วยข้อมูลจำนวนมาก งานนี้ได้ตีพิมพ์ที่ EACL2023 ที่ผ่านมา อ่านได้ที่ https://aclanthology.org/2023.findings-eacl.146/ สำหรับ LTG-BERT ภาษาไทย ทาง HPLT ที่เป็นโครงการรวบรวมข้อมูลหน้าเว็บกับชุดข้อมูลของฝั่งยุโรป ได้เทรนโมเดล LTG-BERT หลายภาษาแบบ monolingual รวมถึงภาษาไทย ปล่อยออกมาเป็นสาธารณะบน HuggingFace HPLT/hplt_bert_base_th สามารถใช้งานได้ผ่าน HuggingFace อ่านรายละเอียดได้ที่ https://huggingface.co/HPLT/hplt_bert_base_th

อ่านต่อ

RWKV: เมื่อ transformer ยังช้าเกินไป

เมษายน 12, 2567

ปัจจุบันนี้กระแส LLM กำลังมา transformer จำพวก decoder model กลายเป็นกระแสหลัก ด้วยความสามารถหลายด้านที่มาพร้อมกับขนาดโมเดลที่ใหญ่ขึ้น แต่ด้วยขนาดกับสถาปัตยกรรม transformer จึงต้องการ resource ที่ค่อนข้างโหดทั้ง GPU กับ CPU รวมถึงฮาร์ดแวร์เร่งความเร็ว กับเทคนิคต่าง ๆ ในการย่อขนาดกับเร่งความเร็วแต่แลกมาด้วยประสิทธิภาพที่ลดลงไปด้วย ทำให้ผู้คนบางส่วนหันไปมอง ออกแบบสถาปัตยกรรมอื่น ๆ หนึ่งในนั้น คือ RWKV ที่นำข้อดี RNN กับ transformer (parallelizable) มารวมกัน Receptance Weighted Key Value (RWKV) เป็นโมเดลที่นำความสามารถเทรนแบบขนาน (parallelizable) ของ transformer เมื่อตอนเทรนโมเดล และประสิทธิภาพในการใช้งานแบบ RNN มารวมกัน อย่างที่เรารู้กันว่า RNN ไม่สามารถเทรนแบบขนาน (parallelizable) ได้ โดย RWKV แก้ไขจุดนี้ไป โดยมีการพัฒนามาสองปีกว่า และได้รับการตีพิมพ์ใน EMNLP 2023 แบบ findings ซึ่งใน paper นี้เป็น RWKV-4 แต่ปัจจุบัน RWKV พัฒนามาจนถึง RWKV-6 แล้ว RWKV-6 เป็นโมเดล RWKV รุ่นที่ 6 เป็น Open source (Apache 2.0...

อ่านต่อ

ลองทำ Text classification สำหรับงานด้าน Quantum Natural Language Processing

มิถุนายน 14, 2563

จากบทความ " เขียน Quantum Machine Learning ได้ด้วย PennyLane " และอบรม Natural Language Processingand Its Relation to Quantum Computing ของดร. ปรัชญา บุญขวัญ ผมได้ไปเจอบทความ "Classifying Documents with Quantum-enhanced Transfer Learning" ของ Riccardo Di Sipio ซึ่งนำ PennyLane มาทำ Text classification ซึ่งเป็นงานด้าน Quantum Natural Language Processing ด้วย Quantum Machine Learning ผมนำโค้ดจาก https://github.com/rdisipio/qnlp ของบทความดังกล่าว มาปรับแต่งโค้ดให้รองรับภาษาไทย และทดลองด้วยจำนวน layers ที่มากขึ้นเปรียบเทียบกัน นำมาใช้ลองกับ ชุดข้อมูล truevoice-intent เปลี่ยนอะไรบ้างจากโค้ดต้นฉบับ? เปลี่ยนชุดข้อมูลมาใช้ ชุดข้อมูล truevoice-intent เปลี่ยนจาก Universal Sentence Encoder (USE) มาใช้ Multilingual Universal Sentence Encoder แทน ปรับ lr มาเป็น 0.01 เปลี่ยนจำนวนคิวบิตที่ใช้ทดสอบ โดยทั้งหมด Train จำนวน 20 ep แบ่ง valid 0.15 และ test ด้วยชุด test ของชุดข้อมูล truevoice-intent เรามาลองทำ Text classification สำหรับงานด้าน Quantum Natural Language ...

อ่านต่อ

Build CRF++ ใน Windows

ธันวาคม 08, 2560

CRF++ เป็นเครื่องมือสำหรับใช้ในงาน NLP ที่เป็นที่นิยมกัน เราสามารถ Build CRF++ ใน Windows ได้โดยใช้โค้ดจาก GitHub : https://github.com/DjangoPeng/CRF

อ่านต่อ

ทำ POS tagging ภาษาไทยโดยใช้ Neural Network ด้วย nlpnet

สิงหาคม 10, 2560

nlpnet เป็นเครื่องมือสำหรับใช้ทำ part-of-speech tagging, semantic role labeling และ dependency parsing โดยใช้ Neural Network โดยรันบน Python 2.7 (ไม่รองรับ Windows) และเป็น MIT License การติดตั้ง ใช้คำสั่ง $ pip install nlpnet การเตรียมข้อมูลภาษาไทย เราใช้ข้อมูล orchid มาทำเป็น CoNLL format ตั้งชื่อว่า thaipostag.txt ที่มี 4 column ตามตัวอย่างนี้ 1 การ _ FIXN 2 ประชุม _ VACT 3 ทาง _ NCMN 4 วิชาการ _ NCMN 5 <space> _ PUNC 6 ครั้ง _ CFQC 7 ที่1 _ DONM column แรกเป็นลำดับประโยค column ที่ 2 เป็นคำ และอันสุดท้ายเป็น POS tagging กำกับแต่ละคำ โหลดไฟล์ข้อมูลที่จัดทำไว้ได้จาก https://gist.github.com/wannaph...

อ่านต่อ

ค้นหาบล็อกนี้

Thai NLP

บทความ

FineTasks ก้าวแรกของชุดข้อมูล FineWeb รุ่น multilingual

Data Contamination - เมื่อชุดข้อมูลทดสอบหลุดไปในการเทรนโมเดล

HPLT/hplt_bert_base_th: LTG-BERT ภาษาไทย!

RWKV: เมื่อ transformer ยังช้าเกินไป

ลองทำ Text classification สำหรับงานด้าน Quantum Natural Language Processing

Build CRF++ ใน Windows

ทำ POS tagging ภาษาไทยโดยใช้ Neural Network ด้วย nlpnet

License