fineweb-c

Hugging Face2024-12-22 更新2024-12-23 收录

下载链接：

https://huggingface.co/datasets/data-is-better-together/fineweb-c

下载链接

链接失效反馈

官方服务：

资源简介：

FineWeb-C数据集是一个协作的、社区驱动的项目，旨在创建跨数百种语言的高质量教育内容注释。通过增强这些注释的网络内容，旨在提高所有语言的大型语言模型（LLMs）的开发，使AI技术在全球范围内更加普及和有效。数据集包括多种语言配置，每个配置都有文本、教育价值标签、注释者ID和问题内容标签等特征。社区成员通过评估内容的教学价值和标记问题内容来贡献数据集。

创建时间：

2024-12-21

原始信息汇总

FineWeb-C 数据集概述

数据集简介

FineWeb-C 是一个多语言的教育内容数据集，由社区驱动，旨在通过标注教育内容来提升多语言大型语言模型（LLMs）的质量。该数据集扩展了 FineWeb2 数据集，目标是创建高质量的教育内容标注，涵盖数百种语言。

数据集配置

数据集包含多个配置，每个配置对应一种语言，具体如下：

配置列表

arb_Arab: 标准阿拉伯语
ary_Arab: 摩洛哥阿拉伯语
arz_Arab: 埃及阿拉伯语
bar_Latn: 巴伐利亚语
cmn_Hani: 普通话
dan: 丹麦语
dan_Latn: 丹麦语（拉丁字母）
default: 默认配置
fas_Arab: 波斯语
gmh_Latn: 中古高地德语
hin_Deva: 印地语
lvs: 拉脱维亚语
lvs_Latn: 拉脱维亚语（拉丁字母）
rus_Cyrl: 俄语
tat_Cyrl: 塔塔尔语

数据特征

每个配置包含以下特征：

id: 字符串类型，表示数据的唯一标识。
text: 字符串类型，表示文本内容。
educational_value_labels: 字符串序列，表示教育价值标签。
annotator_ids: 字符串序列，表示标注者的ID。
problematic_content_label_present: 布尔类型，表示是否存在问题内容标签。
problematic_content_label_agreement: 浮点数类型，表示问题内容标签的一致性。
language_names: 字符串类型，表示语言名称。
language_code: 字符串类型，表示语言代码。

数据分割

每个配置的数据分为训练集（train），具体如下：

arb_Arab: 1000个样本，4913929字节
ary_Arab: 1000个样本，3086740字节
arz_Arab: 1000个样本，3175887字节
bar_Latn: 1000个样本，2494628字节
cmn_Hani: 1000个样本，4075430字节
dan: 1000个样本，3968961字节
dan_Latn: 1000个样本，3978961字节
default: 13000个样本，73894945字节
fas_Arab: 1000个样本，5759890字节
gmh_Latn: 1000个样本，16120134字节
hin_Deva: 1000个样本，6238691字节
lvs: 1000个样本，4598981字节
lvs_Latn: 1000个样本，4608981字节
rus_Cyrl: 1000个样本，9674640字节
tat_Cyrl: 1000个样本，6697853字节

数据集大小

下载大小: 每个配置的下载大小不同，范围从1515329字节到38830605字节。
数据集大小: 每个配置的数据集大小不同，范围从3086740字节到73894945字节。

数据集贡献

截至目前，Hugging Face 社区的318名成员已提交了32,863个标注。以下语言已达到1,000个标注的阈值，并被包含在数据集中：

语言代码	语言名称	已完成标注	标注者数量
arb_Arab	标准阿拉伯语	1000	10
ary_Arab	摩洛哥阿拉伯语	1000	15
arz_Arab	埃及阿拉伯语	1000	9
bar_Latn	巴伐利亚语	1000	1
cmn_Hani	普通话	1000	3
dan_Latn	丹麦语	1000	18
fas_Arab	波斯语	1000	3
gmh_Latn	中古高地德语	1000	1
hin_Deva	印地语	1000	3
lvs_Latn	标准拉脱维亚语	1000	5
rus_Cyrl	俄语	1000	4
tat_Cyrl	塔塔尔语	1000	7

数据集用途

该数据集用于训练AI系统，自动识别多语言中的高质量教育内容，从而帮助构建更好的大型语言模型。

搜集汇总

数据集介绍

构建方式

FineWeb-c数据集的构建基于社区驱动的协作模式，旨在通过社区成员对网页内容的标注来提升教育内容的质量。该数据集扩展了FineWeb2数据集，涵盖了多种语言的教育内容标注。每个语言配置包含1000条标注，标注内容包括教育价值标签、问题内容标签及其一致性评分等。通过这种方式，数据集不仅丰富了多语言教育资源的标注，还为构建高质量的多语言大语言模型（LLMs）提供了基础数据支持。

特点

FineWeb-c数据集的显著特点在于其多语言覆盖和社区驱动的标注方式。数据集包含了多种语言的标注，如阿拉伯语、中文、丹麦语等，每种语言均有1000条标注。此外，数据集还记录了标注者的ID、问题内容的存在与否及其一致性评分，确保了标注的多样性和质量。这种多语言、多维度的标注方式使得该数据集在训练多语言教育内容分类器和构建高质量LLMs方面具有独特的优势。

使用方法

FineWeb-c数据集可用于训练和评估多语言教育内容分类器，帮助识别高质量的教育资源。使用者可以通过HuggingFace平台下载该数据集，并根据不同的语言配置进行数据加载和处理。数据集的标注信息可用于构建和优化多语言大语言模型，特别是在教育内容识别和分类任务中。此外，社区成员还可以通过参与标注和讨论，进一步丰富和完善数据集，推动多语言AI技术的发展。

背景与挑战

背景概述

FineWeb-c数据集是一个由社区驱动的协作项目，旨在通过高质量的教育内容标注，提升多语言环境下的自然语言处理能力。该项目扩展自FineWeb2数据集，主要研究人员和机构通过社区贡献的方式，致力于为数百种语言提供教育内容的标注。其核心研究问题在于如何通过社区的力量，为全球范围内的多种语言提供高质量的教育内容标注，从而推动大型语言模型（LLMs）在多语言环境中的应用。该数据集的创建不仅有助于提升AI技术在全球范围内的可及性和有效性，还为多语言教育内容的自动识别和分类提供了宝贵的资源。

当前挑战

FineWeb-c数据集面临的挑战主要集中在多语言标注的复杂性和数据质量的保障上。首先，不同语言之间的语法、文化和教育价值的差异使得标注过程变得复杂，尤其是在低资源语言中，缺乏高质量的标注数据是一个显著的障碍。其次，构建过程中需要确保标注的一致性和准确性，尤其是在社区驱动的模式下，如何有效管理和协调大量志愿者的标注工作是一个技术和社会层面的双重挑战。此外，数据集的扩展性和可持续性也是关键问题，如何持续吸引社区成员参与并保持数据集的更新和高质量，是该项目长期发展的关键。

常用场景

经典使用场景

FineWeb-c数据集的经典使用场景在于其多语言教育内容的高质量标注，特别适用于训练和优化多语言大型语言模型（LLMs）。通过该数据集，研究者能够构建能够自动识别和分类教育内容的AI系统，从而提升模型在多语言环境下的表现。

衍生相关工作

FineWeb-c数据集的发布催生了一系列相关研究工作，包括多语言教育内容分类器的开发、多语言LLMs的优化等。此外，该数据集还为多语言数据集的构建提供了新的范式，激发了更多关于多语言数据标注和处理的研究。

数据集最近研究