legacy-datasets/mc4|多语言数据集数据集|语言模型预训练数据集
收藏数据集卡片 for mC4
数据集描述
数据集概述
mC4是一个多语言的、经过清洗的Common Crawl网络爬虫语料库版本。基于Common Crawl数据集:"https://commoncrawl.org"。
该版本由AllenAI准备,托管在此地址:https://huggingface.co/datasets/allenai/c4
支持108种语言,包括以下语言及其罗马化变体(使用拉丁字母书写):
语言代码 | 语言名称 |
---|---|
af | 南非荷兰语 |
am | 阿姆哈拉语 |
ar | 阿拉伯语 |
az | 阿塞拜疆语 |
be | 白俄罗斯语 |
bg | 保加利亚语 |
bg-Latn | 保加利亚语(拉丁) |
bn | 孟加拉语 |
ca | 加泰罗尼亚语 |
ceb | 宿务语 |
co | 科西嘉语 |
cs | 捷克语 |
cy | 威尔士语 |
da | 丹麦语 |
de | 德语 |
el | 希腊语 |
el-Latn | 希腊语(拉丁) |
en | 英语 |
eo | 世界语 |
es | 西班牙语 |
et | 爱沙尼亚语 |
eu | 巴斯克语 |
fa | 波斯语 |
fi | 芬兰语 |
fil | 菲律宾语 |
fr | 法语 |
fy | 西弗里西亚语 |
ga | 爱尔兰语 |
gd | 苏格兰盖尔语 |
gl | 加利西亚语 |
gu | 古吉拉特语 |
ha | 豪萨语 |
haw | 夏威夷语 |
hi | 印地语 |
hi-Latn | 印地语(拉丁文) |
hmn | 苗语 |
ht | 海地克里奥尔语 |
hu | 匈牙利语 |
hy | 亚美尼亚语 |
id | 印度尼西亚语 |
ig | 伊博语 |
is | 冰岛语 |
it | 意大利语 |
iw | 希伯来语(旧) |
ja | 日语 |
ja-Latn | 日语(拉丁) |
jv | 爪哇语 |
ka | 格鲁吉亚语 |
kk | 哈萨克语 |
km | 高棉语 |
kn | 卡纳达语 |
ko | 韩语 |
ku | 库尔德语 |
ky | 吉尔吉斯语 |
la | 拉丁语 |
lb | 卢森堡语 |
lo | 老挝语 |
lt | 立陶宛语 |
lv | 拉脱维亚语 |
mg | 马尔加什语 |
mi | 毛利语 |
mk | 马其顿语 |
ml | 马拉雅拉姆语 |
mn | 蒙古语 |
mr | 马拉地语 |
ms | 马来语 |
mt | 马耳他语 |
my | 缅甸语 |
ne | 尼泊尔语 |
nl | 荷兰语 |
no | 挪威语 |
ny | 齐切瓦语 |
pa | 旁遮普语 |
pl | 波兰语 |
ps | 普什图语 |
pt | 葡萄牙语 |
ro | 罗马尼亚语 |
ru | 俄语 |
ru-Latn | 俄语(拉丁) |
sd | 信德语 |
si | 僧伽罗语 |
sk | 斯洛伐克语 |
sl | 斯洛文尼亚语 |
sm | 萨摩亚语 |
sn | 绍纳语 |
so | 索马里语 |
sq | 阿尔巴尼亚语 |
sr | 塞尔维亚语 |
st | 南索托语 |
su | 巽他语 |
sv | 瑞典语 |
sw | 斯瓦希里语 |
ta | 泰米尔语 |
te | 泰卢固语 |
tg | 塔吉克语 |
th | 泰语 |
tr | 土耳其语 |
uk | 乌克兰语 |
und | 未知语言 |
ur | 乌尔都语 |
uz | 乌兹别克语 |
vi | 越南语 |
xh | 科萨语 |
yi | 意第绪语 |
yo | 约鲁巴语 |
zh | 中文 |
zh-Latn | 中文(拉丁) |
zu | 祖鲁语 |
支持的任务和排行榜
mC4主要用于预训练语言模型和词表示。
数据集结构
数据实例
一个en
配置的示例如下:
json { "timestamp": "2018-06-24T01:32:39Z", "text": "Farm Resources in Plumas County Show Beginning Farmer Organizations & Professionals (304) There are 304 resources serving Plumas County in the following categories: Map of Beginning Farmer Organizations & Professionals serving Plumas County Victoria Fisher - Office Manager - Loyalton, CA Amy Lynn Rasband - UCCE Plumas-Sierra Administrative Assistant II - Quincy , CA Show Farm Income Opportunities Organizations & Professionals (353) There are 353 resources serving Plumas County in the following categories: Farm Ranch And Forest Retailers (18) Map of Farm Income Opportunities Organizations & Professionals serving Plumas County Warner Valley Wildlife Area - Plumas County Show Farm Resources Organizations & Professionals (297) There are 297 resources serving Plumas County in the following categories: Map of Farm Resources Organizations & Professionals serving Plumas County There are 57 resources serving Plumas County in the following categories: Map of Organic Certification Organizations & Professionals serving Plumas County", "url": "http://www.californialandcan.org/Plumas/Farm-Resources/" }
数据字段
数据包含以下字段:
url
:源URL,字符串类型text
:文本内容,字符串类型timestamp
:时间戳,字符串类型
数据分割
为了构建mC4,作者使用CLD3识别了超过100种语言。每个语言的mC4子集在以下表格中报告:
配置 | 训练集 | 验证集 |
---|---|---|
af | ? | ? |
am | ? | ? |
ar | ? | ? |
az | ? | ? |
be | ? | ? |
bg | ? | ? |
bg-Latn | ? | ? |
bn | ? | ? |
ca | ? | ? |
ceb | ? | ? |
co | ? | ? |
cs | ? | ? |
cy | ? | ? |
da | ? | ? |
de | ? | ? |
el | ? | ? |
el-Latn | ? | ? |
en | ? | ? |
eo | ? | ? |
es | ? | ? |
et | ? | ? |
eu | ? | ? |
fa | ? | ? |
fi | ? | ? |
fil | ? | ? |
fr | ? | ? |
fy | ? | ? |
ga | ? | ? |
gd | ? | ? |
gl | ? | ? |
gu | ? | ? |
ha | ? | ? |
haw | ? | ? |
hi | ? | ? |
hi-Latn | ? | ? |
hmn | ? | ? |
ht | ? | ? |
hu | ? | ? |
hy | ? | ? |
id | ? | ? |
ig | ? | ? |
is | ? | ? |
it | ? | ? |
iw | ? | ? |
ja | ? | ? |
ja-Latn | ? | ? |
jv | ? | ? |
ka | ? | ? |
kk | ? | ? |
km | ? | ? |
kn | ? | ? |
ko | ? | ? |
ku | ? | ? |
ky | ? | ? |
la | ? | ? |
lb | ? | ? |
lo | ? | ? |
lt | ? | ? |
lv | ? | ? |
mg | ? | ? |
mi | ? | ? |
mk | ? | ? |
ml | ? | ? |
mn | ? | ? |
mr | ? | ? |
ms | ? | ? |
mt | ? | ? |
my | ? | ? |
ne | ? | ? |
nl | ? | ? |
no | ? | ? |
ny | ? | ? |
pa | ? | ? |
pl | ? | ? |
ps | ? | ? |
pt | ? | ? |
ro | ? | ? |
ru | ? | ? |
ru-Latn | ? | ? |
sd | ? | ? |
si | ? | ? |
sk | ? | ? |
sl | ? | ? |
sm | ? | ? |
sn | ? | ? |
so | ? | ? |
sq | ? | ? |
sr | ? | ? |
st | ? | ? |
su | ? | ? |
sv | ? | ? |
sw | ? | ? |
ta | ? | ? |
te | ? | ? |
tg | ? | ? |
th | ? | ? |
tr | ? | ? |
uk | ? | ? |
und | ? | ? |
ur | ? | ? |
uz | ? | ? |
vi | ? | ? |
xh | ? | ? |
yi | ? | ? |
yo | ? | ? |
zh | ? | ? |
zh-Latn | ? | ? |
zu | ? | ? |
数据集创建
策划理由
[更多信息需补充]
源数据
初始数据收集和规范化
[更多信息需补充]
源语言生产者是谁?
[更多信息需补充]
注释
注释过程
[更多信息需补充]
注释者是谁?
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据的注意事项
数据集的社会影响
[更多信息需补充]
偏见的讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
[更多信息需补充]
许可信息
AllenAI根据ODC-BY的条款发布此数据集。使用此数据集,您还必须遵守Common Crawl的使用条款。
引用信息
@article{2019t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {arXiv e-prints}, year = {2019}, archivePrefix = {arXiv}, eprint = {1910.10683}, }
贡献

Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录