five

ahelk/ccaligned_multilingual

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ahelk/ccaligned_multilingual
下载链接
链接失效反馈
官方服务:
资源简介:
CCAligned数据集包含137种语言与英语对齐的网页文档对。这些文档对是通过对原始网页文档进行语言识别并确保URL中的语言代码对应而构建的。该数据集基于68个Commoncrawl快照创建,提供了超过1亿个与英语对齐的文档对。数据集支持多种语言,并且提供了文档和句子两种类型的数据实例。文档类型的数据实例包含域名、源URL、目标URL以及翻译内容;句子类型的数据实例包含LASER相似度分数和翻译内容。数据集的使用需要考虑个人和敏感信息的保护。

CCAligned数据集包含137种语言与英语对齐的网页文档对。这些文档对是通过对原始网页文档进行语言识别并确保URL中的语言代码对应而构建的。该数据集基于68个Commoncrawl快照创建,提供了超过1亿个与英语对齐的文档对。数据集支持多种语言,并且提供了文档和句子两种类型的数据实例。文档类型的数据实例包含域名、源URL、目标URL以及翻译内容;句子类型的数据实例包含LASER相似度分数和翻译内容。数据集的使用需要考虑个人和敏感信息的保护。
提供机构:
ahelk
原始信息汇总

数据集概述:CCAligned

数据集描述

数据集总结

CCAligned 是一个包含137种语言与英语平行或可比对网络文档对的数据集。这些文档对是通过对原始网络文档进行语言识别,并确保相应的语言代码在网络文档的URL中对应来构建的。此方法产生了超过1亿对与英语对齐的文档。

语言

数据集包含137种语言的文本,并与英语对齐。

数据集结构

数据实例

数据集包含两种类型的实例:documentssentences

documents 类型实例

  • Domain: 字符串类型,表示域名。
  • Source_URL: 字符串类型,表示源URL。
  • Target_URL: 字符串类型,表示目标URL。
  • translation: 字典类型,包含两个键值对:
    • en_XX: 字符串类型,表示英文内容。
    • <language_code>: 字符串类型,表示指定语言代码的内容。

sentences 类型实例

  • LASER_similarity: 浮点数类型,表示LASER相似度得分。
  • translation: 字典类型,包含两个键值对:
    • en_XX: 字符串类型,表示英文内容。
    • <language_code>: 字符串类型,表示指定语言代码的内容。

数据分割

数据集根据不同的配置进行了分割,部分小配置的分割大小如下:

名称 训练集大小
documents-zz_TR 41
sentences-zz_TR 34
documents-tz_MA 4
sentences-tz_MA 33
documents-ak_GH 249
sentences-ak_GH 478

数据集创建

个人和敏感信息

数据集包含在线捐赠其声音的人的信息。使用者同意不尝试确定此数据集中说话者的身份。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作