five

legacy-datasets/mc4|多语言数据集数据集|语言模型预训练数据集

收藏
hugging_face2024-03-05 更新2024-06-15 收录
多语言数据集
语言模型预训练
下载链接:
https://hf-mirror.com/datasets/legacy-datasets/mc4
下载链接
链接失效反馈
资源简介:
mC4数据集是一个多语言的、经过清理的Common Crawl网页爬取语料库版本,支持108种语言。该数据集主要用于预训练语言模型和词表示。数据集的每个实例包含URL、文本内容和时间戳字段。数据集的结构包括数据实例、数据字段和数据分割。
提供机构:
legacy-datasets
原始信息汇总

数据集卡片 for mC4

数据集描述

数据集概述

mC4是一个多语言的、经过清洗的Common Crawl网络爬虫语料库版本。基于Common Crawl数据集:"https://commoncrawl.org"。

该版本由AllenAI准备,托管在此地址:https://huggingface.co/datasets/allenai/c4

支持108种语言,包括以下语言及其罗马化变体(使用拉丁字母书写):

语言代码 语言名称
af 南非荷兰语
am 阿姆哈拉语
ar 阿拉伯语
az 阿塞拜疆语
be 白俄罗斯语
bg 保加利亚语
bg-Latn 保加利亚语(拉丁)
bn 孟加拉语
ca 加泰罗尼亚语
ceb 宿务语
co 科西嘉语
cs 捷克语
cy 威尔士语
da 丹麦语
de 德语
el 希腊语
el-Latn 希腊语(拉丁)
en 英语
eo 世界语
es 西班牙语
et 爱沙尼亚语
eu 巴斯克语
fa 波斯语
fi 芬兰语
fil 菲律宾语
fr 法语
fy 西弗里西亚语
ga 爱尔兰语
gd 苏格兰盖尔语
gl 加利西亚语
gu 古吉拉特语
ha 豪萨语
haw 夏威夷语
hi 印地语
hi-Latn 印地语(拉丁文)
hmn 苗语
ht 海地克里奥尔语
hu 匈牙利语
hy 亚美尼亚语
id 印度尼西亚语
ig 伊博语
is 冰岛语
it 意大利语
iw 希伯来语(旧)
ja 日语
ja-Latn 日语(拉丁)
jv 爪哇语
ka 格鲁吉亚语
kk 哈萨克语
km 高棉语
kn 卡纳达语
ko 韩语
ku 库尔德语
ky 吉尔吉斯语
la 拉丁语
lb 卢森堡语
lo 老挝语
lt 立陶宛语
lv 拉脱维亚语
mg 马尔加什语
mi 毛利语
mk 马其顿语
ml 马拉雅拉姆语
mn 蒙古语
mr 马拉地语
ms 马来语
mt 马耳他语
my 缅甸语
ne 尼泊尔语
nl 荷兰语
no 挪威语
ny 齐切瓦语
pa 旁遮普语
pl 波兰语
ps 普什图语
pt 葡萄牙语
ro 罗马尼亚语
ru 俄语
ru-Latn 俄语(拉丁)
sd 信德语
si 僧伽罗语
sk 斯洛伐克语
sl 斯洛文尼亚语
sm 萨摩亚语
sn 绍纳语
so 索马里语
sq 阿尔巴尼亚语
sr 塞尔维亚语
st 南索托语
su 巽他语
sv 瑞典语
sw 斯瓦希里语
ta 泰米尔语
te 泰卢固语
tg 塔吉克语
th 泰语
tr 土耳其语
uk 乌克兰语
und 未知语言
ur 乌尔都语
uz 乌兹别克语
vi 越南语
xh 科萨语
yi 意第绪语
yo 约鲁巴语
zh 中文
zh-Latn 中文(拉丁)
zu 祖鲁语

支持的任务和排行榜

mC4主要用于预训练语言模型和词表示。

数据集结构

数据实例

一个en配置的示例如下:

json { "timestamp": "2018-06-24T01:32:39Z", "text": "Farm Resources in Plumas County Show Beginning Farmer Organizations & Professionals (304) There are 304 resources serving Plumas County in the following categories: Map of Beginning Farmer Organizations & Professionals serving Plumas County Victoria Fisher - Office Manager - Loyalton, CA Amy Lynn Rasband - UCCE Plumas-Sierra Administrative Assistant II - Quincy , CA Show Farm Income Opportunities Organizations & Professionals (353) There are 353 resources serving Plumas County in the following categories: Farm Ranch And Forest Retailers (18) Map of Farm Income Opportunities Organizations & Professionals serving Plumas County Warner Valley Wildlife Area - Plumas County Show Farm Resources Organizations & Professionals (297) There are 297 resources serving Plumas County in the following categories: Map of Farm Resources Organizations & Professionals serving Plumas County There are 57 resources serving Plumas County in the following categories: Map of Organic Certification Organizations & Professionals serving Plumas County", "url": "http://www.californialandcan.org/Plumas/Farm-Resources/" }

数据字段

数据包含以下字段:

  • url:源URL,字符串类型
  • text:文本内容,字符串类型
  • timestamp:时间戳,字符串类型

数据分割

为了构建mC4,作者使用CLD3识别了超过100种语言。每个语言的mC4子集在以下表格中报告:

配置 训练集 验证集
af ? ?
am ? ?
ar ? ?
az ? ?
be ? ?
bg ? ?
bg-Latn ? ?
bn ? ?
ca ? ?
ceb ? ?
co ? ?
cs ? ?
cy ? ?
da ? ?
de ? ?
el ? ?
el-Latn ? ?
en ? ?
eo ? ?
es ? ?
et ? ?
eu ? ?
fa ? ?
fi ? ?
fil ? ?
fr ? ?
fy ? ?
ga ? ?
gd ? ?
gl ? ?
gu ? ?
ha ? ?
haw ? ?
hi ? ?
hi-Latn ? ?
hmn ? ?
ht ? ?
hu ? ?
hy ? ?
id ? ?
ig ? ?
is ? ?
it ? ?
iw ? ?
ja ? ?
ja-Latn ? ?
jv ? ?
ka ? ?
kk ? ?
km ? ?
kn ? ?
ko ? ?
ku ? ?
ky ? ?
la ? ?
lb ? ?
lo ? ?
lt ? ?
lv ? ?
mg ? ?
mi ? ?
mk ? ?
ml ? ?
mn ? ?
mr ? ?
ms ? ?
mt ? ?
my ? ?
ne ? ?
nl ? ?
no ? ?
ny ? ?
pa ? ?
pl ? ?
ps ? ?
pt ? ?
ro ? ?
ru ? ?
ru-Latn ? ?
sd ? ?
si ? ?
sk ? ?
sl ? ?
sm ? ?
sn ? ?
so ? ?
sq ? ?
sr ? ?
st ? ?
su ? ?
sv ? ?
sw ? ?
ta ? ?
te ? ?
tg ? ?
th ? ?
tr ? ?
uk ? ?
und ? ?
ur ? ?
uz ? ?
vi ? ?
xh ? ?
yi ? ?
yo ? ?
zh ? ?
zh-Latn ? ?
zu ? ?

数据集创建

策划理由

[更多信息需补充]

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者是谁?

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者是谁?

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

AllenAI根据ODC-BY的条款发布此数据集。使用此数据集,您还必须遵守Common Crawl的使用条款。

引用信息

@article{2019t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {arXiv e-prints}, year = {2019}, archivePrefix = {arXiv}, eprint = {1910.10683}, }

贡献

感谢@dirkgr@lhoestq添加此数据集。

AI搜集汇总
数据集介绍
main_image_url
构建方式
mC4数据集是一个由AllenAI准备的,基于Common Crawl的网页爬取语料库的多语言、大规模、清理版本。该数据集涵盖了108种语言,包括罗马化变体。数据集的构建过程使用了CLD3工具来识别超过100种语言,并将每种语言的子集进行了报告。数据集的来源是原始的Common Crawl数据,经过收集和规范化处理,最终形成了包含文本内容、URL和时间的多字段数据实例。
特点
mC4数据集的特点在于其多语言性和规模庞大,适合用于预训练语言模型和词表示。数据集支持的语言数量众多,涵盖了全球多种语言,为多语言研究提供了丰富的语料资源。此外,数据集的结构清晰,每个数据实例包含URL、文本内容和时间戳,便于进行各种文本处理和分析任务。
使用方法
使用mC4数据集的方法相对简单。首先,用户可以通过Hugging Face的datasets库加载特定语言的数据集子集,例如加载英语的mC4子集可以使用`en_mc4 = load_dataset('mc4', 'en')`。此外,用户还可以指定一个语言列表来加载多个语言的数据集子集,例如`mc4_subset_with_five_languages = load_dataset('mc4', languages=['en', 'fr', 'es', 'de', 'zh'])`。加载后,用户可以对数据进行进一步的处理和分析,以满足不同的研究需求。
背景与挑战
背景概述
mC4数据集,作为Common Crawl网络爬取语料库的多语言巨量清洗版本,是艾伦人工智能研究所(AllenAI)基于Common Crawl数据集准备而成的。该数据集旨在为语言模型和词表征的预训练提供支持,并支持108种语言,包括罗马化变体。mC4数据集的创建,是为了满足多语言语言模型预训练的需求,特别是对于那些资源匮乏的语言,为语言技术的发展提供了宝贵的资源。
当前挑战
尽管mC4数据集在多语言预训练方面做出了重要贡献,但也面临着一些挑战。首先,数据集的创建过程中,如何保证数据质量,特别是对于一些资源匮乏的语言,如何确保数据的准确性和代表性,是一个亟待解决的问题。其次,数据集的多语言特性也带来了语言模型训练的挑战,如何在预训练过程中有效地处理不同语言之间的差异,是一个需要深入研究的问题。此外,数据集的社会影响和潜在偏见也需要被认真考虑,以确保数据集的应用不会对特定群体造成不公平的影响。
常用场景
经典使用场景
mC4数据集是一个多语言的大规模文本数据集,主要支持语言模型和词表示的预训练。该数据集包含来自Common Crawl网络爬取的数据,覆盖了108种语言。mC4数据集的经典使用场景是用于预训练多语言的语言模型,以支持文本生成和填空等任务。
实际应用
mC4数据集在实际应用中可以用于开发多语言的语言模型,支持跨语言的文本生成和填空等任务。例如,可以使用mC4数据集训练一个多语言的翻译模型,从而实现跨语言的文本翻译。此外,mC4数据集还可以用于开发多语言的问答系统,从而支持跨语言的问答。
衍生相关工作
mC4数据集衍生了多种相关的经典工作,包括多语言的文本生成和填空等任务。例如,基于mC4数据集训练的语言模型可以用于开发多语言的聊天机器人,支持跨语言的对话。此外,mC4数据集还可以用于开发多语言的文本分类模型,从而支持跨语言的文本分类。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Global Firepower Index (GFI)

Global Firepower Index (GFI) 是一个评估全球各国军事力量的综合指数。该指数考虑了超过50个因素,包括军事预算、人口、陆地面积、海军力量、空军力量、自然资源、后勤能力、地理位置等。数据集提供了每个国家的详细评分和排名,帮助分析和比较各国的军事实力。

www.globalfirepower.com 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

IVLLab/MultiDialog

该数据集包含手动注释的元数据,将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务,包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语,并提供了一个黄金情感对话子集,用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。

hugging_face 收录