FineTasks ก้าวแรกของชุดข้อมูล FineWeb รุ่น multilingual
Hugging Face กำลังพัฒนาชุดข้อมูล FineWeb รุ่น multilingual ที่รวมภาษากว่า 1000 ภาษาสำหรับฝีกฝน LLM แต่ก่อนจะไปถึงต้องมี eval ชื่อ FineTasks เพื่อประเมินตัวกรองข้อมูลในแต่ละภาษา โดยมีภาษา 9 ภาษา: Chinese, French, Arabic, Russian, Thai, Hindi, Turkish, Swahili, และ Telugu (มีภาษาไทยด้วย) FineTasks ประเมินอะไรบ้าง Reading comprehension (RC) General knowledge (GK) Natural Language Understanding (NLU) Common-sense reasoning (RES) Generative tasks FineTasks Leaderboard สำหรับภาษาไทย สำหรับภาษาไทยที่มีชุดข้อมูลตอนนี้คือ meta_mmlu, belebele, m3exam, xnli 2.0, thaiqa, xquad, และ hellaswag โดยโมเดลที่ได้คะแนน FineTasks Leaderboard สูงสุดสำหรับภาษาไทย คือ Qwen/Qwen2.5-72B