five

legacy-datasets/mc4|多语言数据集数据集|语言模型预训练数据集

收藏
hugging_face2024-03-05 更新2024-06-15 收录
多语言数据集
语言模型预训练
下载链接:
https://hf-mirror.com/datasets/legacy-datasets/mc4
下载链接
链接失效反馈
资源简介:
mC4数据集是一个多语言的、经过清理的Common Crawl网页爬取语料库版本,支持108种语言。该数据集主要用于预训练语言模型和词表示。数据集的每个实例包含URL、文本内容和时间戳字段。数据集的结构包括数据实例、数据字段和数据分割。
提供机构:
legacy-datasets
原始信息汇总

数据集卡片 for mC4

数据集描述

数据集概述

mC4是一个多语言的、经过清洗的Common Crawl网络爬虫语料库版本。基于Common Crawl数据集:"https://commoncrawl.org"。

该版本由AllenAI准备,托管在此地址:https://huggingface.co/datasets/allenai/c4

支持108种语言,包括以下语言及其罗马化变体(使用拉丁字母书写):

语言代码 语言名称
af 南非荷兰语
am 阿姆哈拉语
ar 阿拉伯语
az 阿塞拜疆语
be 白俄罗斯语
bg 保加利亚语
bg-Latn 保加利亚语(拉丁)
bn 孟加拉语
ca 加泰罗尼亚语
ceb 宿务语
co 科西嘉语
cs 捷克语
cy 威尔士语
da 丹麦语
de 德语
el 希腊语
el-Latn 希腊语(拉丁)
en 英语
eo 世界语
es 西班牙语
et 爱沙尼亚语
eu 巴斯克语
fa 波斯语
fi 芬兰语
fil 菲律宾语
fr 法语
fy 西弗里西亚语
ga 爱尔兰语
gd 苏格兰盖尔语
gl 加利西亚语
gu 古吉拉特语
ha 豪萨语
haw 夏威夷语
hi 印地语
hi-Latn 印地语(拉丁文)
hmn 苗语
ht 海地克里奥尔语
hu 匈牙利语
hy 亚美尼亚语
id 印度尼西亚语
ig 伊博语
is 冰岛语
it 意大利语
iw 希伯来语(旧)
ja 日语
ja-Latn 日语(拉丁)
jv 爪哇语
ka 格鲁吉亚语
kk 哈萨克语
km 高棉语
kn 卡纳达语
ko 韩语
ku 库尔德语
ky 吉尔吉斯语
la 拉丁语
lb 卢森堡语
lo 老挝语
lt 立陶宛语
lv 拉脱维亚语
mg 马尔加什语
mi 毛利语
mk 马其顿语
ml 马拉雅拉姆语
mn 蒙古语
mr 马拉地语
ms 马来语
mt 马耳他语
my 缅甸语
ne 尼泊尔语
nl 荷兰语
no 挪威语
ny 齐切瓦语
pa 旁遮普语
pl 波兰语
ps 普什图语
pt 葡萄牙语
ro 罗马尼亚语
ru 俄语
ru-Latn 俄语(拉丁)
sd 信德语
si 僧伽罗语
sk 斯洛伐克语
sl 斯洛文尼亚语
sm 萨摩亚语
sn 绍纳语
so 索马里语
sq 阿尔巴尼亚语
sr 塞尔维亚语
st 南索托语
su 巽他语
sv 瑞典语
sw 斯瓦希里语
ta 泰米尔语
te 泰卢固语
tg 塔吉克语
th 泰语
tr 土耳其语
uk 乌克兰语
und 未知语言
ur 乌尔都语
uz 乌兹别克语
vi 越南语
xh 科萨语
yi 意第绪语
yo 约鲁巴语
zh 中文
zh-Latn 中文(拉丁)
zu 祖鲁语

支持的任务和排行榜

mC4主要用于预训练语言模型和词表示。

数据集结构

数据实例

一个en配置的示例如下:

json { "timestamp": "2018-06-24T01:32:39Z", "text": "Farm Resources in Plumas County Show Beginning Farmer Organizations & Professionals (304) There are 304 resources serving Plumas County in the following categories: Map of Beginning Farmer Organizations & Professionals serving Plumas County Victoria Fisher - Office Manager - Loyalton, CA Amy Lynn Rasband - UCCE Plumas-Sierra Administrative Assistant II - Quincy , CA Show Farm Income Opportunities Organizations & Professionals (353) There are 353 resources serving Plumas County in the following categories: Farm Ranch And Forest Retailers (18) Map of Farm Income Opportunities Organizations & Professionals serving Plumas County Warner Valley Wildlife Area - Plumas County Show Farm Resources Organizations & Professionals (297) There are 297 resources serving Plumas County in the following categories: Map of Farm Resources Organizations & Professionals serving Plumas County There are 57 resources serving Plumas County in the following categories: Map of Organic Certification Organizations & Professionals serving Plumas County", "url": "http://www.californialandcan.org/Plumas/Farm-Resources/" }

数据字段

数据包含以下字段:

  • url:源URL,字符串类型
  • text:文本内容,字符串类型
  • timestamp:时间戳,字符串类型

数据分割

为了构建mC4,作者使用CLD3识别了超过100种语言。每个语言的mC4子集在以下表格中报告:

配置 训练集 验证集
af ? ?
am ? ?
ar ? ?
az ? ?
be ? ?
bg ? ?
bg-Latn ? ?
bn ? ?
ca ? ?
ceb ? ?
co ? ?
cs ? ?
cy ? ?
da ? ?
de ? ?
el ? ?
el-Latn ? ?
en ? ?
eo ? ?
es ? ?
et ? ?
eu ? ?
fa ? ?
fi ? ?
fil ? ?
fr ? ?
fy ? ?
ga ? ?
gd ? ?
gl ? ?
gu ? ?
ha ? ?
haw ? ?
hi ? ?
hi-Latn ? ?
hmn ? ?
ht ? ?
hu ? ?
hy ? ?
id ? ?
ig ? ?
is ? ?
it ? ?
iw ? ?
ja ? ?
ja-Latn ? ?
jv ? ?
ka ? ?
kk ? ?
km ? ?
kn ? ?
ko ? ?
ku ? ?
ky ? ?
la ? ?
lb ? ?
lo ? ?
lt ? ?
lv ? ?
mg ? ?
mi ? ?
mk ? ?
ml ? ?
mn ? ?
mr ? ?
ms ? ?
mt ? ?
my ? ?
ne ? ?
nl ? ?
no ? ?
ny ? ?
pa ? ?
pl ? ?
ps ? ?
pt ? ?
ro ? ?
ru ? ?
ru-Latn ? ?
sd ? ?
si ? ?
sk ? ?
sl ? ?
sm ? ?
sn ? ?
so ? ?
sq ? ?
sr ? ?
st ? ?
su ? ?
sv ? ?
sw ? ?
ta ? ?
te ? ?
tg ? ?
th ? ?
tr ? ?
uk ? ?
und ? ?
ur ? ?
uz ? ?
vi ? ?
xh ? ?
yi ? ?
yo ? ?
zh ? ?
zh-Latn ? ?
zu ? ?

数据集创建

策划理由

[更多信息需补充]

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者是谁?

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者是谁?

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

AllenAI根据ODC-BY的条款发布此数据集。使用此数据集,您还必须遵守Common Crawl的使用条款。

引用信息

@article{2019t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {arXiv e-prints}, year = {2019}, archivePrefix = {arXiv}, eprint = {1910.10683}, }

贡献

感谢@dirkgr@lhoestq添加此数据集。

AI搜集汇总
数据集介绍
main_image_url
构建方式
mC4数据集是一个由AllenAI准备的,基于Common Crawl的网页爬取语料库的多语言、大规模、清理版本。该数据集涵盖了108种语言,包括罗马化变体。数据集的构建过程使用了CLD3工具来识别超过100种语言,并将每种语言的子集进行了报告。数据集的来源是原始的Common Crawl数据,经过收集和规范化处理,最终形成了包含文本内容、URL和时间的多字段数据实例。
特点
mC4数据集的特点在于其多语言性和规模庞大,适合用于预训练语言模型和词表示。数据集支持的语言数量众多,涵盖了全球多种语言,为多语言研究提供了丰富的语料资源。此外,数据集的结构清晰,每个数据实例包含URL、文本内容和时间戳,便于进行各种文本处理和分析任务。
使用方法
使用mC4数据集的方法相对简单。首先,用户可以通过Hugging Face的datasets库加载特定语言的数据集子集,例如加载英语的mC4子集可以使用`en_mc4 = load_dataset('mc4', 'en')`。此外,用户还可以指定一个语言列表来加载多个语言的数据集子集,例如`mc4_subset_with_five_languages = load_dataset('mc4', languages=['en', 'fr', 'es', 'de', 'zh'])`。加载后,用户可以对数据进行进一步的处理和分析,以满足不同的研究需求。
背景与挑战
背景概述
mC4数据集,作为Common Crawl网络爬取语料库的多语言巨量清洗版本,是艾伦人工智能研究所(AllenAI)基于Common Crawl数据集准备而成的。该数据集旨在为语言模型和词表征的预训练提供支持,并支持108种语言,包括罗马化变体。mC4数据集的创建,是为了满足多语言语言模型预训练的需求,特别是对于那些资源匮乏的语言,为语言技术的发展提供了宝贵的资源。
当前挑战
尽管mC4数据集在多语言预训练方面做出了重要贡献,但也面临着一些挑战。首先,数据集的创建过程中,如何保证数据质量,特别是对于一些资源匮乏的语言,如何确保数据的准确性和代表性,是一个亟待解决的问题。其次,数据集的多语言特性也带来了语言模型训练的挑战,如何在预训练过程中有效地处理不同语言之间的差异,是一个需要深入研究的问题。此外,数据集的社会影响和潜在偏见也需要被认真考虑,以确保数据集的应用不会对特定群体造成不公平的影响。
常用场景
经典使用场景
mC4数据集是一个多语言的大规模文本数据集,主要支持语言模型和词表示的预训练。该数据集包含来自Common Crawl网络爬取的数据,覆盖了108种语言。mC4数据集的经典使用场景是用于预训练多语言的语言模型,以支持文本生成和填空等任务。
实际应用
mC4数据集在实际应用中可以用于开发多语言的语言模型,支持跨语言的文本生成和填空等任务。例如,可以使用mC4数据集训练一个多语言的翻译模型,从而实现跨语言的文本翻译。此外,mC4数据集还可以用于开发多语言的问答系统,从而支持跨语言的问答。
衍生相关工作
mC4数据集衍生了多种相关的经典工作,包括多语言的文本生成和填空等任务。例如,基于mC4数据集训练的语言模型可以用于开发多语言的聊天机器人,支持跨语言的对话。此外,mC4数据集还可以用于开发多语言的文本分类模型,从而支持跨语言的文本分类。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。

huggingface 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录