Thermostatic/parallel_corpus_webcrawl_english_spanish_1
收藏Hugging Face2024-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Thermostatic/parallel_corpus_webcrawl_english_spanish_1
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含约21,005条平行文本的英语和西班牙语平行语料库,文本来源于多语言网站,经过严格筛选,适用于训练机器翻译算法。
这是一个包含约21,005条平行文本的英语和西班牙语平行语料库,文本来源于多语言网站,经过严格筛选,适用于训练机器翻译算法。
提供机构:
Thermostatic
原始信息汇总
数据集卡片
数据集概述
这是一个包含约21,000行平行英西双语文本的平行语料库数据集,通过爬取不同网站获得。数据经过严格筛选。
数据集详情
数据集描述
这是一个从多语言网站爬取的双语平行语料库,包含21,005个翻译单元(TUs)。遵循严格的验证流程,包括:
-
剔除不符合PSI指令的网站的TUs
-
剔除超过99%拼写错误的TUs
-
在手动验证过程中识别的TUs,以及错误率超过以下阈值的网站的所有TUs:50%的TUs存在语言识别错误,50%的TUs存在对齐错误,50%的TUs存在分词错误,20%的TUs被识别为机器翻译内容,50%的TUs存在翻译错误。
-
爬取时间段: 2016年11月15日至2017年1月23日
-
策划机构: 通信网络、内容和技术总局
-
语言(NLP): 英语和西班牙语
-
许可证: cc-by-4.0
用途
该数据集非常适合用于训练机器翻译算法。



