สร้าง Corpus ใหม่ที่เหมือน BEST I Corpus

BEST I Corpus เป็นคลังข้อมูลสำหรับใช้ฝึกระบบตัดคำภาษาไทย เป็นผลงานของ Nectec หากเราต้องการสร้างสร้าง Corpus ใหม่สำหรับใช้ฝึกระบบตัดคำภาษาไทย

วิธีการสร้าง Corpus ใหม่

ทำการตัดคำและกำกับคำดังนี้
ใน BEST I Corpus มีการกำกับคำโดยใช้ | ตามนี้
เริ่ม|บรรทัด|จบ|
โดยขึ้นต้นบรรทัด ไม่มี |
จบบรรทัดลงท้ายด้วย |
และ 1. แบ่งเป็น 1|.| และแบ่งเว้นวรรคด้วย

ทำการ tag ดังนี้
<NE>ชื่อคน สัตว์หรือหน่วยงาน ชื่อเฉพาะ ตัวย่อหน่วยงาน</NE> ex กรุงเทพฯ , ป.อ. ปยุตโต , จุฬาลงกรณ์มหาวิทยาลัย , จิณณ์นภัส แสงมา , กกต. , WTO , สหรัฐอเมริกา , กรมวิชาการเกษตร , นายกฯ ทักษิณ , พ.ต.ท.ทักษิณ , หนูนา
<AB>ตัวย่อ</AB> ex พ.ศ. , ค.ศ. , บก. , กก.
<POEM>บทกลอนแต่ละบรรทัด</POEM>
คำอธิบาย
– เครื่องหมายกำหนดขอบเขตคำด้วย | ในตำแหน่งท้ายของคำ
– เครื่องหมายกำหนดนพจน์ระบุนาม (Named-entity) :<NE>...</NE>
– เครื่องหมายกำหนดอักษรย่อ :<AB>...</AB>
– เครื่องหมายกำหนดข้อความที่(เป็นร้อยกรอง) :<POEM>...</POEM>

ตัวอย่าง https://github.com/wannaphongcom/lexicon-thai/tree/master/thai-corpus/Prime%20Minister%2029

ข้อสังเกต
- ควรตรวจสอบการตัดคำทุกครั้ง และ tag ให้ครบทุกตัว
- ใช้โปรแกรมช่วยตัดคำไทยแล้ว | กำกับคำ แล้วตรวจสอบ แก้ไขข้อผิดพลาดแล้ว tag คำให้เรียบร้อย วิธีนี้เร็วสุด
- ควรเอาบทความที่ไม่มีลิขสิทธิ์

ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

ทำ POS tagging ภาษาไทยโดยใช้ Neural Network ด้วย nlpnet

ทดลองตัดคำภาษาไทยด้วย Unsupervised Learning จากกูเกิล