TransEcom-BLDPC:基于双语参数映射与同义词扰动的电商领域双语平行语料库
收藏阿里云天池2026-06-09 更新2026-05-09 收录
下载链接:
https://tianchi.aliyun.com/dataset/225729
下载链接
链接失效反馈官方服务:
资源简介:
数据集名称: 双语数据集(基于双语参数映射 + 同义词扰动)
基本信息:
- 平行翻译对总数:120,000
- 模板数量:171
- 产品术语数量:82
- 材质术语数量:14
- 颜色术语数量:12
数据划分:
- 训练集 (train):96,000
- 验证集 (val):12,000
- 测试集 (test):12,000
数据处理统计:
- 原始总数:120,000
- 去重后:120,000(无重复)
- 质量过滤(bad_ratio):955 条(长度比例异常)
- 术语标注覆盖率:94,112 条(78.4%)
领域分布:
- 物流售后 (logistics_after_sales):39,730
- 产品描述 (product_description):39,529
- 交易 (transaction):39,786
数据集包含电商领域的三个子领域,覆盖翻译、售后、产品描述等典型场景。
Dataset Name: Bilingual Dataset (Based on Bilingual Parameter Mapping + Synonym Perturbation)
Basic Information:
- Total number of parallel translation pairs: 120,000
- Number of templates: 171
- Number of product terminology entries: 82
- Number of material terminology entries: 14
- Number of color terminology entries: 12
Data Split:
- Training set (train): 96,000
- Validation set (val): 12,000
- Test set (test): 12,000
Data Processing Statistics:
- Original total count: 120,000
- Post-deduplication count: 120,000 (no duplicates)
- Quality filtering (bad_ratio): 955 entries with abnormal length ratios
- Term annotation coverage: 94,112 entries (78.4%)
Domain Distribution:
- Logistics After-Sales: 39,730
- Product Description: 39,529
- Transaction: 39,786
This dataset covers three sub-domains in the e-commerce field, including typical scenarios such as translation, after-sales service and product description.
提供机构:
阿里云天池
创建时间:
2026-05-03
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个电商领域的双语平行语料库,包含12万条平行翻译对,采用双语参数映射和同义词扰动方法构建。数据覆盖物流售后、产品描述和交易三个子领域,并划分为训练集、验证集和测试集,其中术语标注覆盖率达78.4%。
以上内容由遇见数据集搜集并总结生成



