FineTasks ก้าวแรกของชุดข้อมูล FineWeb รุ่น multilingual

Hugging Face กำลังพัฒนาชุดข้อมูล FineWeb รุ่น multilingual ที่รวมภาษากว่า 1000 ภาษาสำหรับฝีกฝน LLM แต่ก่อนจะไปถึงต้องมี eval ชื่อ FineTasks เพื่อประเมินตัวกรองข้อมูลในแต่ละภาษา โดยมีภาษา 9 ภาษา: Chinese, French, Arabic, Russian, Thai, Hindi, Turkish, Swahili, และ Telugu (มีภาษาไทยด้วย)

FineTasks ประเมินอะไรบ้าง

Reading comprehension (RC)
General knowledge (GK)
Natural Language Understanding (NLU)
Common-sense reasoning (RES)
Generative tasks

FineTasks Leaderboard สำหรับภาษาไทย

สำหรับภาษาไทยที่มีชุดข้อมูลตอนนี้คือ meta_mmlu, belebele, m3exam, xnli 2.0, thaiqa, xquad, และ hellaswag โดยโมเดลที่ได้คะแนน FineTasks Leaderboard สูงสุดสำหรับภาษาไทย คือ Qwen/Qwen2.5-72B

ค้นหาบล็อกนี้

Thai NLP

FineTasks ก้าวแรกของชุดข้อมูล FineWeb รุ่น multilingual

ความคิดเห็น

แสดงความคิดเห็น

License

โพสต์ยอดนิยมจากบล็อกนี้

สร้าง Corpus ใหม่ที่เหมือน BEST I Corpus

RWKV: เมื่อ transformer ยังช้าเกินไป

ทำ POS tagging ภาษาไทยโดยใช้ Neural Network ด้วย nlpnet