common_corpus

Hugging Face2024-11-15 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/PleIAs/common_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Common Corpus是一个大规模的开源文本数据集，包含超过2万亿个标记。该数据集具有多语言特性，主要涵盖英语和法语，但也包含其他XX种语言的数据。数据集内容多样，包括书籍、报纸、科学文章、政府和法律文件、代码等。数据集经过精心策划，纠正了数字化文本中的拼写和格式错误，移除了有害和有毒内容，并删除了低教育价值的内容。数据集由五个精心策划的集合组成：OpenCulture、OpenGovernment、OpenSource、OpenScience和OpenWeb。每个集合都有其特定的领域和来源。数据集的发布将伴随一份详细的技术报告，确保透明度和可重复性。

Common Corpus is a large-scale open-source text dataset containing over 2 trillion tokens. This dataset is multilingual, primarily encompassing English and French, while also incorporating data from XX additional languages. The dataset covers diverse content types, including books, newspapers, scientific articles, governmental and legal documents, code, and more. The dataset has been carefully curated: it corrects spelling and formatting errors in digitized texts, removes harmful and toxic content, and eliminates content with low educational value. The dataset consists of five carefully curated subsets: OpenCulture, OpenGovernment, OpenSource, OpenScience, and OpenWeb. Each subset has its own specific domain and data source. The release of this dataset will be accompanied by a detailed technical report to ensure transparency and reproducibility.

创建时间：

2024-11-12

原始信息汇总

Common Corpus

概述

Common Corpus 是一个包含超过2万亿个标记的开放许可文本数据集，涵盖书籍、报纸、科学文章、政府和法律文件、代码等多种内容。

特点

真正开放：仅包含开放许可的数据。
多语言：主要包含英语和法语文本，但也包含其他XX种语言的数据。
多样化：包含科学文章、政府和法律文件、代码以及文化遗产数据。
精心策划：已纠正数字化文本中的拼写和格式错误，移除了有害和有毒内容，并删除了低教育价值的内容。

数据集组成

Common Corpus 由五个精心策划的集合组成：

OpenCulture：包含926,541,096,243个标记，主要包含公共领域的书籍、报纸和Wikisource内容。
OpenGovernment：包含387,965,738,992个标记，主要包含金融和法律文件。
OpenSource：包含334,658,896,533个标记，主要包含GitHub上的高质量开源代码。
OpenScience：包含221,798,136,564个标记，主要包含来自Open Alex和其他开放科学仓库的学术内容。
OpenWeb：包含132,075,315,715个标记，主要包含Wikipedia、YouTube Commons和其他网站的文本。

数据结构

identifier：唯一文本标识符。
text：处理后的文本。
char_count：文本中的UTF-8字符数。
file_name：原始文件路径，按集合组织。
set_id：集合ID（1-10）。
subset_id：子集ID（1-100）。

使用注意事项

许可：所有数据均为开放许可，可用于商业和非商业用途。
多语言：数据包含多语言文本，可通过元数据按语言过滤。
历史文本：部分文本为历史文本，元数据中包含文本的写作年份。

偏见与敏感信息

偏见：已移除包含高毒性评分或冒犯性词汇的文本。
敏感信息：已尝试移除个人身份信息（PII），主要使用Microsoft Presidio进行处理。

使用方法

python from datasets import load_dataset data = load_dataset(PleIAs/common_corpus)

搜集汇总

数据集介绍

构建方式

Common Corpus的构建过程体现了高度的多样性与严谨性。该数据集由五个精心策划的子集组成，分别是OpenCulture、OpenGovernment、OpenSource、OpenScience和OpenWeb。每个子集均通过特定的工具和方法进行数据清洗和优化，例如使用OCROnos-Vintage校正历史数字化文本中的错误，以及利用ArmoRM筛选高质量的代码提交。此外，数据集还通过先进的毒性过滤技术移除有害内容，确保数据的教育价值与伦理标准。

特点

Common Corpus以其开放性和多样性著称。作为目前最大的开放许可文本数据集，它涵盖了超过2万亿个标记，内容涉及书籍、报纸、科学文章、政府法律文件及代码等多个领域。数据集不仅支持多种语言，还通过严格的筛选机制确保了数据的质量与安全性。其独特之处在于，所有数据均采用宽松许可，允许商业与非商业用途，同时通过多语言支持与历史文本的元数据，为用户提供了高度的灵活性与可定制性。

使用方法

使用Common Corpus时，用户可以通过HuggingFace的`datasets`库轻松加载数据。数据集的多语言特性使得用户可以根据语言元数据进行筛选，同时历史文本的年份信息也支持自定义时间范围的构建。尽管数据集已通过毒性过滤与个人信息移除技术进行处理，用户仍需注意潜在的偏见问题。通过调用`load_dataset('PleIAs/common_corpus')`，用户可以快速访问这一庞大的文本资源，为自然语言处理任务提供丰富的数据支持。

背景与挑战

背景概述

Common Corpus是由多个国际知名机构与研究人员共同构建的全球最大开放文本数据集，涵盖了超过2万亿个标记。该数据集由法国文化部、DINUM等机构支持，并由AI Alliance、Nvidia Inception等合作伙伴提供技术支持。数据集包含五大精心策划的子集：OpenCulture、OpenGovernment、OpenSource、OpenScience和OpenWeb，涵盖了文化、法律、代码、学术和网络文本等多个领域。其核心研究问题在于为自然语言处理任务提供高质量、多样化的训练数据，推动多语言文本生成、法律与金融文本分析等领域的进展。Common Corpus的发布标志着开放数据在学术与工业界的深度融合，为全球研究者提供了前所未有的资源。

当前挑战

Common Corpus在构建过程中面临多重挑战。首先，数据集的多样性要求对不同领域的文本进行精细的筛选与处理，确保其符合现代伦理标准，同时保留原始信息的完整性。其次，多语言数据的整合与处理需要克服语言差异带来的技术难题，尤其是在历史文本的数字化与格式校正方面。此外，数据集中的偏见与有害内容的识别与剔除也是一大挑战，尽管采用了先进的毒性分类器Celadon和Microsoft Presidio等工具，但仍需不断优化以应对复杂的语言环境。最后，数据集的规模与复杂性对存储与处理技术提出了极高的要求，如何在保证数据质量的同时实现高效的管理与分发，是未来需要持续解决的问题。

常用场景

经典使用场景

Common Corpus作为目前最大的开放文本数据集，广泛应用于自然语言处理领域的研究与开发。其多语言、多领域的特性使其成为训练大规模语言模型的理想选择，尤其是在跨语言文本生成、机器翻译和文本分类等任务中表现出色。研究人员可以通过该数据集构建高质量的预训练模型，提升模型在不同语言和文化背景下的泛化能力。

解决学术问题

Common Corpus解决了大规模语言模型训练中数据稀缺和多样性不足的问题。通过提供超过2万亿个经过精心筛选和处理的文本数据，该数据集为研究人员提供了丰富的语料资源，支持跨语言、跨领域的学术研究。其开放的许可协议确保了数据的透明性和可重复性，推动了自然语言处理领域的开放科学发展。

衍生相关工作

Common Corpus的发布催生了一系列相关研究与应用。例如，基于该数据集的多语言预训练模型在机器翻译和跨语言文本生成任务中取得了显著进展。此外，研究人员还利用其丰富的法律和金融文档资源，开发了智能合同分析和金融风险评估工具。这些工作不仅拓展了数据集的应用范围，也为自然语言处理领域的技术创新提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集