ccaligned_multilingual
收藏Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/ccaligned_multilingual
下载链接
链接失效反馈官方服务:
资源简介:
CCAligned提供与英语对齐的137种语言的平行或可比较的Web文档对,规模从小于1K到超过10M样本不等。这些数据通过对原始Web文档进行语言识别,并确保Web文档URL中相应的语言代码对应来构建。数据集中包含领域、源URL、目标URL以及翻译内容等字段,部分数据还提供LASER相似度评分。CCAligned支持多种任务,但具体任务类型和排行榜信息缺失。使用者在使用该数据集时,需要注意数据集中可能存在的偏见和社会影响,并遵守相关的数据使用协议。
创建时间:
2024-07-19



