HPLT/hplt_bert_base_th: LTG-BERT ภาษาไทย!

ปัจจุบัน แม้ว่า masked language model จะถูก LLM กลบไป แต่ฝั่ง masked language model ยังคงมีการพัฒนาต่อเนื่องอยู่ หนึ่งในนั้นคือ LTG-BERT ที่เป็น data-efficient masked language model เทรนด้วยข้อมูลจำกัด (ทดสอบด้วย British National Corpus ที่มี 100M tokens) แต่ประสิทธิภาพดีกว่า BERT ตัวหลัก ไม่จำเป็นต้องเทรนด้วยข้อมูลจำนวนมาก งานนี้ได้ตีพิมพ์ที่ EACL2023 ที่ผ่านมา อ่านได้ที่ https://aclanthology.org/2023.findings-eacl.146/

สำหรับ LTG-BERT ภาษาไทย ทาง HPLT ที่เป็นโครงการรวบรวมข้อมูลหน้าเว็บกับชุดข้อมูลของฝั่งยุโรป ได้เทรนโมเดล LTG-BERT หลายภาษาแบบ monolingual รวมถึงภาษาไทย ปล่อยออกมาเป็นสาธารณะบน HuggingFace HPLT/hplt_bert_base_th สามารถใช้งานได้ผ่าน HuggingFace อ่านรายละเอียดได้ที่ https://huggingface.co/HPLT/hplt_bert_base_th

 

ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

สร้าง Corpus ใหม่ที่เหมือน BEST I Corpus

ทำ POS tagging ภาษาไทยโดยใช้ Neural Network ด้วย nlpnet

ทดลองตัดคำภาษาไทยด้วย Unsupervised Learning จากกูเกิล