FineTasks ก้าวแรกของชุดข้อมูล FineWeb รุ่น multilingual

FineTasks ก้าวแรกของชุดข้อมูล FineWeb รุ่น multilingual

Hugging Face กำลังพัฒนาชุดข้อมูล FineWeb รุ่น multilingual ที่รวมภาษากว่า 1000 ภาษาสำหรับฝีกฝน LLM แต่ก่อนจะไปถึงต้องมี eval ชื่อ FineTasks เพื่อประเมินตัวกรองข้อมูลในแต่ละภาษา โดยมีภาษา 9 ภาษา: Chinese, French, Arabic, Russian, Thai, Hindi, Turkish, Swahili, และ Telugu (มีภาษาไทยด้วย)

FineTasks ประเมินอะไรบ้าง

  • Reading comprehension (RC)
  • General knowledge (GK)
  • Natural Language Understanding (NLU)
  • Common-sense reasoning (RES)
  • Generative tasks
FineTasks Leaderboard สำหรับภาษาไทย
FineTasks Leaderboard สำหรับภาษาไทย
สำหรับภาษาไทยที่มีชุดข้อมูลตอนนี้คือ meta_mmlu, belebele, m3exam, xnli 2.0, thaiqa, xquad, และ hellaswag โดยโมเดลที่ได้คะแนน FineTasks Leaderboard สูงสุดสำหรับภาษาไทย คือ Qwen/Qwen2.5-72B

ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

สร้าง Corpus ใหม่ที่เหมือน BEST I Corpus

RWKV: เมื่อ transformer ยังช้าเกินไป

ทำ POS tagging ภาษาไทยโดยใช้ Neural Network ด้วย nlpnet