legacy-datasets/mc4
收藏数据集卡片 for mC4
数据集描述
数据集概述
mC4是一个多语言的、经过清洗的Common Crawl网络爬虫语料库版本。基于Common Crawl数据集:"https://commoncrawl.org"。
该版本由AllenAI准备,托管在此地址:https://huggingface.co/datasets/allenai/c4
支持108种语言,包括以下语言及其罗马化变体(使用拉丁字母书写):
| 语言代码 | 语言名称 |
|---|---|
| af | 南非荷兰语 |
| am | 阿姆哈拉语 |
| ar | 阿拉伯语 |
| az | 阿塞拜疆语 |
| be | 白俄罗斯语 |
| bg | 保加利亚语 |
| bg-Latn | 保加利亚语(拉丁) |
| bn | 孟加拉语 |
| ca | 加泰罗尼亚语 |
| ceb | 宿务语 |
| co | 科西嘉语 |
| cs | 捷克语 |
| cy | 威尔士语 |
| da | 丹麦语 |
| de | 德语 |
| el | 希腊语 |
| el-Latn | 希腊语(拉丁) |
| en | 英语 |
| eo | 世界语 |
| es | 西班牙语 |
| et | 爱沙尼亚语 |
| eu | 巴斯克语 |
| fa | 波斯语 |
| fi | 芬兰语 |
| fil | 菲律宾语 |
| fr | 法语 |
| fy | 西弗里西亚语 |
| ga | 爱尔兰语 |
| gd | 苏格兰盖尔语 |
| gl | 加利西亚语 |
| gu | 古吉拉特语 |
| ha | 豪萨语 |
| haw | 夏威夷语 |
| hi | 印地语 |
| hi-Latn | 印地语(拉丁文) |
| hmn | 苗语 |
| ht | 海地克里奥尔语 |
| hu | 匈牙利语 |
| hy | 亚美尼亚语 |
| id | 印度尼西亚语 |
| ig | 伊博语 |
| is | 冰岛语 |
| it | 意大利语 |
| iw | 希伯来语(旧) |
| ja | 日语 |
| ja-Latn | 日语(拉丁) |
| jv | 爪哇语 |
| ka | 格鲁吉亚语 |
| kk | 哈萨克语 |
| km | 高棉语 |
| kn | 卡纳达语 |
| ko | 韩语 |
| ku | 库尔德语 |
| ky | 吉尔吉斯语 |
| la | 拉丁语 |
| lb | 卢森堡语 |
| lo | 老挝语 |
| lt | 立陶宛语 |
| lv | 拉脱维亚语 |
| mg | 马尔加什语 |
| mi | 毛利语 |
| mk | 马其顿语 |
| ml | 马拉雅拉姆语 |
| mn | 蒙古语 |
| mr | 马拉地语 |
| ms | 马来语 |
| mt | 马耳他语 |
| my | 缅甸语 |
| ne | 尼泊尔语 |
| nl | 荷兰语 |
| no | 挪威语 |
| ny | 齐切瓦语 |
| pa | 旁遮普语 |
| pl | 波兰语 |
| ps | 普什图语 |
| pt | 葡萄牙语 |
| ro | 罗马尼亚语 |
| ru | 俄语 |
| ru-Latn | 俄语(拉丁) |
| sd | 信德语 |
| si | 僧伽罗语 |
| sk | 斯洛伐克语 |
| sl | 斯洛文尼亚语 |
| sm | 萨摩亚语 |
| sn | 绍纳语 |
| so | 索马里语 |
| sq | 阿尔巴尼亚语 |
| sr | 塞尔维亚语 |
| st | 南索托语 |
| su | 巽他语 |
| sv | 瑞典语 |
| sw | 斯瓦希里语 |
| ta | 泰米尔语 |
| te | 泰卢固语 |
| tg | 塔吉克语 |
| th | 泰语 |
| tr | 土耳其语 |
| uk | 乌克兰语 |
| und | 未知语言 |
| ur | 乌尔都语 |
| uz | 乌兹别克语 |
| vi | 越南语 |
| xh | 科萨语 |
| yi | 意第绪语 |
| yo | 约鲁巴语 |
| zh | 中文 |
| zh-Latn | 中文(拉丁) |
| zu | 祖鲁语 |
支持的任务和排行榜
mC4主要用于预训练语言模型和词表示。
数据集结构
数据实例
一个en配置的示例如下:
json { "timestamp": "2018-06-24T01:32:39Z", "text": "Farm Resources in Plumas County Show Beginning Farmer Organizations & Professionals (304) There are 304 resources serving Plumas County in the following categories: Map of Beginning Farmer Organizations & Professionals serving Plumas County Victoria Fisher - Office Manager - Loyalton, CA Amy Lynn Rasband - UCCE Plumas-Sierra Administrative Assistant II - Quincy , CA Show Farm Income Opportunities Organizations & Professionals (353) There are 353 resources serving Plumas County in the following categories: Farm Ranch And Forest Retailers (18) Map of Farm Income Opportunities Organizations & Professionals serving Plumas County Warner Valley Wildlife Area - Plumas County Show Farm Resources Organizations & Professionals (297) There are 297 resources serving Plumas County in the following categories: Map of Farm Resources Organizations & Professionals serving Plumas County There are 57 resources serving Plumas County in the following categories: Map of Organic Certification Organizations & Professionals serving Plumas County", "url": "http://www.californialandcan.org/Plumas/Farm-Resources/" }
数据字段
数据包含以下字段:
url:源URL,字符串类型text:文本内容,字符串类型timestamp:时间戳,字符串类型
数据分割
为了构建mC4,作者使用CLD3识别了超过100种语言。每个语言的mC4子集在以下表格中报告:
| 配置 | 训练集 | 验证集 |
|---|---|---|
| af | ? | ? |
| am | ? | ? |
| ar | ? | ? |
| az | ? | ? |
| be | ? | ? |
| bg | ? | ? |
| bg-Latn | ? | ? |
| bn | ? | ? |
| ca | ? | ? |
| ceb | ? | ? |
| co | ? | ? |
| cs | ? | ? |
| cy | ? | ? |
| da | ? | ? |
| de | ? | ? |
| el | ? | ? |
| el-Latn | ? | ? |
| en | ? | ? |
| eo | ? | ? |
| es | ? | ? |
| et | ? | ? |
| eu | ? | ? |
| fa | ? | ? |
| fi | ? | ? |
| fil | ? | ? |
| fr | ? | ? |
| fy | ? | ? |
| ga | ? | ? |
| gd | ? | ? |
| gl | ? | ? |
| gu | ? | ? |
| ha | ? | ? |
| haw | ? | ? |
| hi | ? | ? |
| hi-Latn | ? | ? |
| hmn | ? | ? |
| ht | ? | ? |
| hu | ? | ? |
| hy | ? | ? |
| id | ? | ? |
| ig | ? | ? |
| is | ? | ? |
| it | ? | ? |
| iw | ? | ? |
| ja | ? | ? |
| ja-Latn | ? | ? |
| jv | ? | ? |
| ka | ? | ? |
| kk | ? | ? |
| km | ? | ? |
| kn | ? | ? |
| ko | ? | ? |
| ku | ? | ? |
| ky | ? | ? |
| la | ? | ? |
| lb | ? | ? |
| lo | ? | ? |
| lt | ? | ? |
| lv | ? | ? |
| mg | ? | ? |
| mi | ? | ? |
| mk | ? | ? |
| ml | ? | ? |
| mn | ? | ? |
| mr | ? | ? |
| ms | ? | ? |
| mt | ? | ? |
| my | ? | ? |
| ne | ? | ? |
| nl | ? | ? |
| no | ? | ? |
| ny | ? | ? |
| pa | ? | ? |
| pl | ? | ? |
| ps | ? | ? |
| pt | ? | ? |
| ro | ? | ? |
| ru | ? | ? |
| ru-Latn | ? | ? |
| sd | ? | ? |
| si | ? | ? |
| sk | ? | ? |
| sl | ? | ? |
| sm | ? | ? |
| sn | ? | ? |
| so | ? | ? |
| sq | ? | ? |
| sr | ? | ? |
| st | ? | ? |
| su | ? | ? |
| sv | ? | ? |
| sw | ? | ? |
| ta | ? | ? |
| te | ? | ? |
| tg | ? | ? |
| th | ? | ? |
| tr | ? | ? |
| uk | ? | ? |
| und | ? | ? |
| ur | ? | ? |
| uz | ? | ? |
| vi | ? | ? |
| xh | ? | ? |
| yi | ? | ? |
| yo | ? | ? |
| zh | ? | ? |
| zh-Latn | ? | ? |
| zu | ? | ? |
数据集创建
策划理由
[更多信息需补充]
源数据
初始数据收集和规范化
[更多信息需补充]
源语言生产者是谁?
[更多信息需补充]
注释
注释过程
[更多信息需补充]
注释者是谁?
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据的注意事项
数据集的社会影响
[更多信息需补充]
偏见的讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
[更多信息需补充]
许可信息
AllenAI根据ODC-BY的条款发布此数据集。使用此数据集,您还必须遵守Common Crawl的使用条款。
引用信息
@article{2019t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {arXiv e-prints}, year = {2019}, archivePrefix = {arXiv}, eprint = {1910.10683}, }
贡献




