สร้าง Corpus ใหม่ที่เหมือน BEST I Corpus
BEST I Corpus เป็นคลังข้อมูลสำหรับใช้ฝึกระบบตัดคำภาษาไทย เป็นผลงานของ Nectec หากเราต้องการสร้างสร้าง Corpus ใหม่สำหรับใช้ฝึกระบบตัดคำภาษาไทย
ใน BEST I Corpus มีการกำกับคำโดยใช้ | ตามนี้
จบบรรทัดลงท้ายด้วย |
และ 1. แบ่งเป็น 1|.| และแบ่งเว้นวรรคด้วย
ทำการ tag ดังนี้
<NE>ชื่อคน สัตว์หรือหน่วยงาน ชื่อเฉพาะ ตัวย่อหน่วยงาน</NE> ex กรุงเทพฯ , ป.อ. ปยุตโต , จุฬาลงกรณ์มหาวิทยาลัย , จิณณ์นภัส แสงมา , กกต. , WTO , สหรัฐอเมริกา , กรมวิชาการเกษตร , นายกฯ ทักษิณ , พ.ต.ท.ทักษิณ , หนูนา
<AB>ตัวย่อ</AB> ex พ.ศ. , ค.ศ. , บก. , กก.
<POEM>บทกลอนแต่ละบรรทัด</POEM>
คำอธิบาย
– เครื่องหมายกำหนดขอบเขตคำด้วย | ในตำแหน่งท้ายของคำ
– เครื่องหมายกำหนดนพจน์ระบุนาม (Named-entity) :<NE>...</NE>
– เครื่องหมายกำหนดอักษรย่อ :<AB>...</AB>
– เครื่องหมายกำหนดข้อความที่(เป็นร้อยกรอง) :<POEM>...</POEM>
ตัวอย่าง https://github.com/wannaphongcom/lexicon-thai/tree/master/thai-corpus/Prime%20Minister%2029
ข้อสังเกต
- ควรตรวจสอบการตัดคำทุกครั้ง และ tag ให้ครบทุกตัว
- ใช้โปรแกรมช่วยตัดคำไทยแล้ว | กำกับคำ แล้วตรวจสอบ แก้ไขข้อผิดพลาดแล้ว tag คำให้เรียบร้อย วิธีนี้เร็วสุด
- ควรเอาบทความที่ไม่มีลิขสิทธิ์
วิธีการสร้าง Corpus ใหม่
ทำการตัดคำและกำกับคำดังนี้ใน BEST I Corpus มีการกำกับคำโดยใช้ | ตามนี้
เริ่ม|บรรทัด|จบ|โดยขึ้นต้นบรรทัด ไม่มี |
จบบรรทัดลงท้ายด้วย |
และ 1. แบ่งเป็น 1|.| และแบ่งเว้นวรรคด้วย
ทำการ tag ดังนี้
<NE>ชื่อคน สัตว์หรือหน่วยงาน ชื่อเฉพาะ ตัวย่อหน่วยงาน</NE> ex กรุงเทพฯ , ป.อ. ปยุตโต , จุฬาลงกรณ์มหาวิทยาลัย , จิณณ์นภัส แสงมา , กกต. , WTO , สหรัฐอเมริกา , กรมวิชาการเกษตร , นายกฯ ทักษิณ , พ.ต.ท.ทักษิณ , หนูนา
<AB>ตัวย่อ</AB> ex พ.ศ. , ค.ศ. , บก. , กก.
<POEM>บทกลอนแต่ละบรรทัด</POEM>
คำอธิบาย
– เครื่องหมายกำหนดขอบเขตคำด้วย | ในตำแหน่งท้ายของคำ
– เครื่องหมายกำหนดนพจน์ระบุนาม (Named-entity) :<NE>...</NE>
– เครื่องหมายกำหนดอักษรย่อ :<AB>...</AB>
– เครื่องหมายกำหนดข้อความที่(เป็นร้อยกรอง) :<POEM>...</POEM>
ตัวอย่าง https://github.com/wannaphongcom/lexicon-thai/tree/master/thai-corpus/Prime%20Minister%2029
ข้อสังเกต
- ควรตรวจสอบการตัดคำทุกครั้ง และ tag ให้ครบทุกตัว
- ใช้โปรแกรมช่วยตัดคำไทยแล้ว | กำกับคำ แล้วตรวจสอบ แก้ไขข้อผิดพลาดแล้ว tag คำให้เรียบร้อย วิธีนี้เร็วสุด
- ควรเอาบทความที่ไม่มีลิขสิทธิ์
ความคิดเห็น
แสดงความคิดเห็น