เมื่อ 2 เดือนที่ผ่านมา กูเกิลได้แอบเปิด Unsupervised Learning สำหรับตัดคำและ detokenizer สำหรับข้อความที่ใช้ Neural Network สร้างระบบ ชื่อว่า SentencePiece โดยเป็นผลิตภัณฑ์อย่างไม่เป็นทางการของกูเกิล
ข้อดีของ Unsupervised Learning คือ ไม่ต้องเตรียมข้อมูลสำหรับใช้ฝึกและไม่ต้องกำหนดหลักเกณฑ์ในการเรียนรู้
ข้อเสีย ต้องใช้ข้อมูลจำนวนมากในการ train
ทำการติดตั้ง SentencePiece โดยทำตาม
https://github.com/google/sentencepiece#build-and-install-sentencepiece
ในการทดลองตัดคำภาษาไทยโดยใช้ SentencePiece นั้น เราได้นำข้อมูลชุดทดสอบ สำหรับการคำนวนหาค่าประสิทธิภาพของโปรแกรมแบ่งคำ (500,000 คำ) โหลดได้จาก
http://thailang.nectec.or.th/downloadcenter/index.php?option=com_docman&task=cat_view&gid=39&Itemid=61 มาใช้งานทดสอบ
แตกไฟล์ TEST_500K.txt ออกมา
สั่ง $ spm_train --input=/home/wannaphong/thainlp/data/TEST_500K.txt --model_prefix=thai1 --model_type=unigram
--input คือ ที่ตั้งไฟล์ txt สำหรับใช้ในการ train
--model_prefix ชื่อ model
--model_type ชนิดของ model มีทั้ง unigram (ค่าเริ่มต้น), bpe…
ความคิดเห็น
แสดงความคิดเห็น