ahelk/ccaligned_multilingual
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ahelk/ccaligned_multilingual
下载链接
链接失效反馈官方服务:
资源简介:
CCAligned数据集包含137种语言与英语对齐的网页文档对。这些文档对是通过对原始网页文档进行语言识别并确保URL中的语言代码对应而构建的。该数据集基于68个Commoncrawl快照创建,提供了超过1亿个与英语对齐的文档对。数据集支持多种语言,并且提供了文档和句子两种类型的数据实例。文档类型的数据实例包含域名、源URL、目标URL以及翻译内容;句子类型的数据实例包含LASER相似度分数和翻译内容。数据集的使用需要考虑个人和敏感信息的保护。
CCAligned数据集包含137种语言与英语对齐的网页文档对。这些文档对是通过对原始网页文档进行语言识别并确保URL中的语言代码对应而构建的。该数据集基于68个Commoncrawl快照创建,提供了超过1亿个与英语对齐的文档对。数据集支持多种语言,并且提供了文档和句子两种类型的数据实例。文档类型的数据实例包含域名、源URL、目标URL以及翻译内容;句子类型的数据实例包含LASER相似度分数和翻译内容。数据集的使用需要考虑个人和敏感信息的保护。
提供机构:
ahelk
原始信息汇总
数据集概述:CCAligned
数据集描述
数据集总结
CCAligned 是一个包含137种语言与英语平行或可比对网络文档对的数据集。这些文档对是通过对原始网络文档进行语言识别,并确保相应的语言代码在网络文档的URL中对应来构建的。此方法产生了超过1亿对与英语对齐的文档。
语言
数据集包含137种语言的文本,并与英语对齐。
数据集结构
数据实例
数据集包含两种类型的实例:documents 和 sentences。
documents 类型实例
Domain: 字符串类型,表示域名。Source_URL: 字符串类型,表示源URL。Target_URL: 字符串类型,表示目标URL。translation: 字典类型,包含两个键值对:en_XX: 字符串类型,表示英文内容。<language_code>: 字符串类型,表示指定语言代码的内容。
sentences 类型实例
LASER_similarity: 浮点数类型,表示LASER相似度得分。translation: 字典类型,包含两个键值对:en_XX: 字符串类型,表示英文内容。<language_code>: 字符串类型,表示指定语言代码的内容。
数据分割
数据集根据不同的配置进行了分割,部分小配置的分割大小如下:
| 名称 | 训练集大小 |
|---|---|
| documents-zz_TR | 41 |
| sentences-zz_TR | 34 |
| documents-tz_MA | 4 |
| sentences-tz_MA | 33 |
| documents-ak_GH | 249 |
| sentences-ak_GH | 478 |
数据集创建
个人和敏感信息
数据集包含在线捐赠其声音的人的信息。使用者同意不尝试确定此数据集中说话者的身份。



