Data Contamination - เมื่อชุดข้อมูลทดสอบหลุดไปในการเทรนโมเดล

GPT-4 มีการปนเปื้อนของข้อมูลทดสอบหลายตัว

การปนเปื้อนของข้อมูล (Data Contamination) เป็นประเด็นเมื่อไม่นานมานี้ หลังจากการเริ่มมีการรายงานการปนเปื้อนของชุดข้อมูลทดสอบไปในโมเดลต่าง ๆ ไม่ว่าจะเป็นโมเดลเชิงการค้า (GPT-4 and other), Open-weight, และ open source เพราะการปนเปื้อนของข้อมูลทดสอบในการเทรนโมเดล ทำให้โมเดลได้คะแนนสูงกว่าความเป็นจริง แถมทำให้การวัดผลด้วยชุดข้อมูลที่ปนเปื้อนไม่สามารถบ่งบอกความสามารถที่แท้จริงของโมเดลได้

จึงเริ่มมีการทำ The 1st Workshop on Data Contamination (CONDA) ที่จะเกิดขึ้นใน ACL 2024 วันที่ 16 สิงหาคม ณ กรุงเทพมหานคร ที่จะถึงนี้ และได้มีการทำ Data Contamination Database เพื่อรวบรวมการรายงานการปนเปื้อนของข้อมูล เพื่อให้นักวิจัยเข้าใจขอบเขตของปัญหาและหลีกเลี่ยงกับใช้ชุดข้อมูลที่มีการปนเปื้อนในการรายงานผลหรือทดสอบโมเดล

The 1st Workshop on Data Contamination (CONDA): https://conda-workshop.github.io/
.
Data Contamination Report from the 2024 CONDA Shared Task: https://arxiv.org/abs/2407.21530
.
Data Contamination Database: https://huggingface.co/spaces/CONDA-Workshop/Data-Contamination-Database

ค้นหาบล็อกนี้

Thai NLP

Data Contamination - เมื่อชุดข้อมูลทดสอบหลุดไปในการเทรนโมเดล

ความคิดเห็น

แสดงความคิดเห็น

License

โพสต์ยอดนิยมจากบล็อกนี้

สร้าง Corpus ใหม่ที่เหมือน BEST I Corpus

ทำ POS tagging ภาษาไทยโดยใช้ Neural Network ด้วย nlpnet

ทดลองตัดคำภาษาไทยด้วย Unsupervised Learning จากกูเกิล