five

agentlans/dolma-1m

收藏
Hugging Face2024-05-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/agentlans/dolma-1m
下载链接
链接失效反馈
官方服务:
资源简介:
Dolma-1M是Dolma v1.7的一个非官方子集,包含1,000,000条训练数据和约100,000条测试数据,这些数据是从10个随机文件中选取的,每条数据的文本长度在500到5000字符之间。相比于原始Dolma数据集,Dolma-1M更小、更易于管理,并且已经过滤了长度,不需要远程执行Python脚本。数据集以Gzipped JSONL格式存储,并提供了示例行。

Dolma-1M是Dolma v1.7的一个非官方子集,包含1,000,000条训练数据和约100,000条测试数据,这些数据是从10个随机文件中选取的,每条数据的文本长度在500到5000字符之间。相比于原始Dolma数据集,Dolma-1M更小、更易于管理,并且已经过滤了长度,不需要远程执行Python脚本。数据集以Gzipped JSONL格式存储,并提供了示例行。
提供机构:
agentlans
原始信息汇总

数据集概述

数据集名称

Dolma-1M

数据集描述

Dolma-1M 是一个非官方的 Dolma v1.7 子集,包含1,000,000条训练数据和约100,000条测试数据。这些数据是从10个随机文件中选取的,每条文本记录长度介于500至5000个字符之间。

相对于原始 Dolma 数据集的优势:

  • 更小的规模,更易于管理
  • 筛选了文本长度
  • 无需远程执行Python脚本

数据集分割

训练集和测试集是通过随机抽样(无放回)创建的。抽样过程使用Python实现。数据集以Gzipped JSONL格式存储,每行代表原始Dolma数据集的一行。

数据集示例

javascript { "id": "https://nightforvets.com/rex-lawrence-poutre/", "text": "Rex was born on the family farm in Concordia, Kansas on February 6, 1920 to Arthur Donas Poutre and Ronalda Nadeau Poutre (Beland). Rex’s older brother, Leo, was born in 1917, and his younger brother, Bob, in 1925. After graduation from high school, Rex moved to Southern California, where his brother was stationed at March Field. [...] passion for riding motorcycles. He participated yearly, for 25 years, in the American Motorcycle Association’s two big tour-bike races, The Iron Butt and the Three Flags. He was a demon for speed. He will be missed.", "added": "2023-04-10T09:48:38.760096+00:00", "created": "2020-02-23T02:03:05Z", "source": "common-crawl" }

数据集使用

该数据集可用于研究、实验和开发目的。与原始Dolma数据集一样,它受Open Data Commons Attribution License (ODC-By) v1.0保护。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作