Nexdata/3140000_Groups_Chinese_Spanish_Parallel_Corpus_Data
收藏Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nexdata/3140000_Groups_Chinese_Spanish_Parallel_Corpus_Data
下载链接
链接失效反馈官方服务:
资源简介:
3,140,000组中-西双语平行语料库数据以文本格式存储,所有数据均与科技相关,平均句子长度为37.1个字符。数据已经过脱敏和质量检查,可作为机器翻译等文本数据分析领域的基础语料库。
3,140,000组中-西双语平行语料库数据以文本格式存储,所有数据均与科技相关,平均句子长度为37.1个字符。数据已经过脱敏和质量检查,可作为机器翻译等文本数据分析领域的基础语料库。
提供机构:
Nexdata
原始信息汇总
数据集概述
基本信息
- 数据集名称:3,140,000 Groups - Chinese-Spanish Parallel Corpus Data
- 格式:TXT
- 语言:中文、西班牙语
- 数据内容:中文-西班牙语平行语料库数据
- 数据大小:314万对中文-西班牙语平行语料库数据
- 平均句子长度:中文句子平均37.1个字符
应用场景
- 主要应用:机器翻译
质量与许可
- 准确率:90%
- 处理情况:数据已进行去敏化和质量检查
- 许可类型:商业许可



