five

codelion/synth-1B

收藏
Hugging Face2025-11-11 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/codelion/synth-1B
下载链接
链接失效反馈
官方服务:
资源简介:
synth-1B数据集是从PleIAs/SYNTH数据集中顺序采样的前999,997,890个标记组成的。这个数据集包含了822,230个文档,每个文档由四个字段组成:查询(query)、查询种子文本(query_seed_text)、合成推理(synthetic_reasoning)和合成答案(synthetic_answer)。这些字段通过双新行符连接,形成用于训练的全面示例。

The synth-1B dataset is a sequential sample of the first 999,997,890 tokens from the PleIAs/SYNTH dataset. It contains 822,230 documents, each consisting of four fields: query, query_seed_text, synthetic_reasoning, and synthetic_answer. These fields are concatenated with double newlines to create comprehensive training examples.
提供机构:
codelion
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作