Data Contamination - เมื่อชุดข้อมูลทดสอบหลุดไปในการเทรนโมเดล
การปนเปื้อนของข้อมูล (Data Contamination) เป็นประเด็นเมื่อไม่นานมานี้ หลังจากการเริ่มมีการรายงานการปนเปื้อนของชุดข้อมูลทดสอบไปในโมเดลต่าง ๆ ไม่ว่าจะเป็นโมเดลเชิงการค้า (GPT-4 and other), Open-weight, และ open source เพราะการปนเปื้อนของข้อมูลทดสอบในการเทรนโมเดล ทำให้โมเดลได้คะแนนสูงกว่าความเป็นจริง แถมทำให้การวัดผลด้วยชุดข้อมูลที่ปนเปื้อนไม่สามารถบ่งบอกความสามารถที่แท้จริงของโมเดลได้ จึงเริ่มมีการทำ The 1st Workshop on Data Contamination (CONDA) ที่จะเกิดขึ้นใน ACL 2024 วันที่ 16 สิงหาคม ณ กรุงเทพมหานคร ที่จะถึงนี้ และได้มีการทำ Data Contamination Database เพื่อรวบรวมการรายงานการปนเปื้อนของข้อมูล เพื่อให้นักวิจัยเข้าใจขอบเขตของปัญหาและหลีกเลี่ยงกับใช้ชุดข้อมูลที่มีการปนเปื้อนในการรายงานผลหรือทดสอบโมเดล The 1st Workshop on Data Contamination (CONDA): https://conda-workshop.github.io/ . Data Contamination Report from the 2024 CONDA Shared Task: https://arxiv.org/abs/2407.21530 . Data Contamination Database: https://huggingface.co/spaces/CONDA-Workshop/Data-Contamination-Database