Build CRF++ ใน Windows รับลิงก์ Facebook X Pinterest อีเมล แอปอื่นๆ ธันวาคม 08, 2560 CRF++ เป็นเครื่องมือสำหรับใช้ในงาน NLP ที่เป็นที่นิยมกัน เราสามารถ Build CRF++ ใน Windows ได้โดยใช้โค้ดจาก GitHub : https://github.com/DjangoPeng/CRF รับลิงก์ Facebook X Pinterest อีเมล แอปอื่นๆ ความคิดเห็น
RWKV: เมื่อ transformer ยังช้าเกินไป เมษายน 12, 2567 ปัจจุบันนี้กระแส LLM กำลังมา transformer จำพวก decoder model กลายเป็นกระแสหลัก ด้วยความสามารถหลายด้านที่มาพร้อมกับขนาดโมเดลที่ใหญ่ขึ้น แต่ด้วยขนาดกับสถาปัตยกรรม transformer จึงต้องการ resource ที่ค่อนข้างโหดทั้ง GPU กับ CPU รวมถึงฮาร์ดแวร์เร่งความเร็ว กับเทคนิคต่าง ๆ ในการย่อขนาดกับเร่งความเร็วแต่แลกมาด้วยประสิทธิภาพที่ลดลงไปด้วย ทำให้ผู้คนบางส่วนหันไปมอง ออกแบบสถาปัตยกรรมอื่น ๆ หนึ่งในนั้น คือ RWKV ที่นำข้อดี RNN กับ transformer (parallelizable) มารวมกัน Receptance Weighted Key Value (RWKV) เป็นโมเดลที่นำความสามารถเทรนแบบขนาน (parallelizable) ของ transformer เมื่อตอนเทรนโมเดล และประสิทธิภาพในการใช้งานแบบ RNN มารวมกัน อย่างที่เรารู้กันว่า RNN ไม่สามารถเทรนแบบขนาน (parallelizable) ได้ โดย RWKV แก้ไขจุดนี้ไป โดยมีการพัฒนามาสองปีกว่า และได้รับการตีพิมพ์ใน EMNLP 2023 แบบ findings ซึ่งใน paper นี้เป็น RWKV-4 แต่ปัจจุบัน RWKV พัฒนามาจนถึง RWKV-6 แล้ว RWKV-6 เป็นโมเดล RWKV รุ่นที่ 6 เป็น Open source (Apache 2.0... อ่านต่อ
สร้าง Corpus ใหม่ที่เหมือน BEST I Corpus มิถุนายน 15, 2560 BEST I Corpus เป็นคลังข้อมูลสำหรับใช้ฝึกระบบตัดคำภาษาไทย เป็นผลงานของ Nectec หากเราต้องการสร้างสร้าง Corpus ใหม่สำหรับใช้ฝึกระบบตัดคำภาษาไทย อ่านเพิ่มเติม
ทดลองตัดคำภาษาไทยด้วย Unsupervised Learning จากกูเกิล สิงหาคม 05, 2560 เมื่อ 2 เดือนที่ผ่านมา กูเกิลได้แอบเปิด Unsupervised Learning สำหรับตัดคำและ detokenizer สำหรับข้อความที่ใช้ Neural Network สร้างระบบ ชื่อว่า SentencePiece โดยเป็นผลิตภัณฑ์อย่างไม่เป็นทางการของกูเกิล ข้อดีของ Unsupervised Learning คือ ไม่ต้องเตรียมข้อมูลสำหรับใช้ฝึกและไม่ต้องกำหนดหลักเกณฑ์ในการเรียนรู้ ข้อเสีย ต้องใช้ข้อมูลจำนวนมากในการ train ทำการติดตั้ง SentencePiece โดยทำตาม https://github.com/google/sentencepiece#build-and-install-sentencepiece ในการทดลองตัดคำภาษาไทยโดยใช้ SentencePiece นั้น เราได้นำข้อมูลชุดทดสอบ สำหรับการคำนวนหาค่าประสิทธิภาพของโปรแกรมแบ่งคำ (500,000 คำ) โหลดได้จาก http://thailang.nectec.or.th/downloadcenter/index.php?option=com_docman&task=cat_view&gid=39&Itemid=61 มาใช้งานทดสอบ แตกไฟล์ TEST_500K.txt ออกมา สั่ง $ spm_train --input=/home/wannaphong/thainlp/data/TEST_500K.txt --model_prefix=thai1 --model_type=unigram --input คือ ที่ตั้งไฟล์ txt สำหรับใช้ในการ train --model_prefix ชื่อ model --model_type ชนิดของ model มีทั้ง unigram (ค่... อ่านต่อ
ความคิดเห็น
แสดงความคิดเห็น