dolma-en
收藏Dolma-English 数据集概述
数据集基本信息
- 数据集名称:Dolma English
- 语言:英语 (en)
- 许可证:Apache-2.0
- 任务类别:文本生成
- 标签:dolma, english
数据集简介
此数据集是 Dolma 语料库的一个过滤子集,仅包含英语文档,并受限于最小文档长度阈值。它旨在用于训练和评估大型语言模型以及其他受益于更高质量、足够长的英语文本的 NLP 系统。
主要目标:
- 减少原始 Dolma 语料库中存在的多语言和非常简短/嘈杂的内容。
- 提供一个更干净、更易于模型使用的英语文本集合。
源数据集
原始数据源自 Dolma,这是一个为语言模型预训练而构建的大规模开放文本语料库,来源多样,包括网络和文档。 上游项目:https://github.com/allenai/dolma
过滤与处理流程
对原始 Dolma 语料库应用了以下过滤器:
- 语言过滤器(仅英语):仅保留被语言识别模型分类为英语的文档。
- 最小长度过滤器:移除了短于指定最小长度的文档。长度以字符或标记数衡量(取决于数据集构建期间使用的预处理配置)。
- 基本清理(如适用):移除空记录或格式错误的记录;规范化空白字符。
数据结构
数据集中的每条记录包含以下字段:
text(字符串):完整的英语文档文本。
数据划分
此数据集包含两个划分:
train:源自 Dolma v1.7,经过英语文档和最小长度阈值过滤。validation:源自 Dolma v1.6 sample,使用与训练数据相同的仅英语和最小长度标准进行过滤。
许可证
此数据集继承原始 Dolma 语料库及其上游来源的许可条款。 完整许可详情请查阅:https://github.com/allenai/dolma
引用
若在您的工作中使用此数据集,请引用 Dolma 语料库: bibtex @article{dolma2023, title = {Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining}, author = {Soldaini, Luca and others}, journal = {arXiv preprint arXiv:2305.16938}, year = {2023} }
您也可以将此过滤数据集引用为: bibtex @dataset{dolma_english_minlength, title = {Dolma English (Minimum Length Filtered)}, author = {{Your Name or Organization}}, year = {2026}, url = {https://huggingface.co/datasets/{your-username}/{your-dataset-name}} }
致谢
此数据集基于艾伦人工智能研究所 (AI2) 创建和发布的 Dolma 语料库。感谢原作者和贡献者公开提供数据。




