five

agentlans/BAAI-Infinity-Instruct

收藏
Hugging Face2025-12-15 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/agentlans/BAAI-Infinity-Instruct
下载链接
链接失效反馈
官方服务:
资源简介:
BAAI/Infinity-Instruct核心数据集是[BAAI/Infinity-Instruct](https://huggingface.co/datasets/BAAI/Infinity-Instruct)的7M_Core配置的非官方修订版。该子集代表了Infinity Instruct训练中使用的核心数据。据作者所述,7M核心数据集“仅使用1.4M指令就达到了完整数据集性能的95.7%”。更新内容包括:修复了对话顺序和标签问题,移除了空白、去重并打乱了样本,删除了URL、电子邮件和电话号码,并添加了已验证的语言检测列。需要注意的是,删除操作可能会影响某些代码、计算或Markdown渲染。

The BAAI/Infinity-Instruct Core Dataset is an unofficial revision of the [BAAI/Infinity-Instruct](https://huggingface.co/datasets/BAAI/Infinity-Instruct) `7M_Core` configuration. This subset represents core data used in Infinity Instruct training. As noted by the authors, the 7M Core achieves 95.7% of the full dataset’s performance with only 1.4M instructions. Updates include fixing conversation order and tag issues, removing blanks, deduplicating, and shuffling samples, redacting URLs, emails, and phone numbers, and adding a `language` column for verified language detection. Note that redaction may affect some code, calculations, or Markdown rendering.
提供机构:
agentlans
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作