five

SYNTHETIC-1-SFT-Data-Code_decontaminated

收藏
魔搭社区2025-11-27 更新2025-03-01 收录
下载链接:
https://modelscope.cn/datasets/open-r1/SYNTHETIC-1-SFT-Data-Code_decontaminated
下载链接
链接失效反馈
官方服务:
资源简介:
## Dataset description This dataset is the same as [open-r1/SYNTHETIC-1-SFT-Data-Code](https://huggingface.co/datasets/open-r1/SYNTHETIC-1-SFT-Data-Code) decontaminated against the benchmark datasets. The decontamination has been run using the script in [huggingface/open-r1](https://github.com/huggingface/open-r1/pull/416): ```shell python scripts/decontaminate.py \ --dataset "open-r1/SYNTHETIC-1-SFT-Data-Code" \ -c ... Removed 5 samples from 'aime_2025' Removed 50 samples from 'math_500' Removed 13234 samples from 'lcb' Initial size: 62953, Final size: 49664 ```

## 数据集描述 本数据集与[open-r1/SYNTHETIC-1-SFT-Data-Code](https://huggingface.co/datasets/open-r1/SYNTHETIC-1-SFT-Data-Code)完全一致,但已针对各类基准数据集完成去污染(decontamination)处理。本次去污染操作通过[huggingface/open-r1](https://github.com/huggingface/open-r1/pull/416)提供的脚本执行: shell python scripts/decontaminate.py --dataset "open-r1/SYNTHETIC-1-SFT-Data-Code" -c ... 已从`aime_2025`中移除5条样本 已从`math_500`中移除50条样本 已从`lcb`中移除13234条样本 初始样本总量:62953,最终样本总量:49664
提供机构:
maas
创建时间:
2025-02-25
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作