en-translations
收藏Multilingual Parallel Sentences with Semantic Similarity Scores and Quality Metrics
数据集概述
该数据集是一个多语言平行句子的集合,包含英语与其他多种语言的句子对。每个句子对都包含语义相似度分数和额外的质量指标。
支持的任务
- 机器翻译
- 跨语言语义相似度
- 多语言自然语言理解
- 翻译质量评估
语言
数据集包含英语与多种语言的句子对,来源包括JW300、Europarl、TED Talks、OPUS-100、Tatoeba、Global Voices和News Commentary。
数据集结构
数据实例
每个实例包含以下字段:
english: 英语句子(字符串)non_english: 对应的其他语言句子(字符串)distance: 句子间的语义相似度分数(余弦距离)(浮点数)quality: 内容质量分数(浮点数)readability: 可读性分数(浮点数)sentiment: 情感分数(浮点数)
示例: json { "english": "If we start to think exponentially, we can see how this is starting to affect all the technologies around us.", "non_english": "Če začnemo misliti eksponentno, vidimo, kako to začenja vplivati na vse tehnologije okoli nas.", "distance": 0.05299, "quality": 0.3359375, "readability": 0.103515625, "sentiment": 0.45703125 }
数据划分
数据集划分为:
- 训练集:867,042行(90%)
- 验证集:96,338行(10%)
- 总计:963,380行(100%)
数据集创建
句子从不同数据集的不同划分和配置中下载,确保了语言表达的多样性。为了保证高质量,数据集进行了去重处理,并且只包含语义相似度分数(distance)低于0.25的句子对。每个数据集的每个划分下载了5,000个句子,最终形成了90%的训练集和10%的验证集。
标注
语义相似度分数使用LaBSE模型生成,通过计算嵌入之间的余弦距离。其他指标使用以下模型进行标注:
- 质量:quality
- 可读性:readability
- 情感:sentiment
使用数据的注意事项
社会影响
该数据集可以通过提供高质量的平行句子以及语义相似度和质量指标,增强跨语言NLP模型和应用。
已知限制
- 语义相似度(
distance)和质量分数可能无法捕捉跨语言相似性或翻译质量的所有细微差别。 - 覆盖范围仅限于源数据集中存在的语言。
- 基于
distance < 0.25的过滤可能会排除一些有效但相似度较低的翻译。




