five

TransEcom-BLDPC:基于双语参数映射与同义词扰动的电商领域双语平行语料库

收藏
阿里云天池2026-06-09 更新2026-05-09 收录
下载链接:
https://tianchi.aliyun.com/dataset/225729
下载链接
链接失效反馈
官方服务:
资源简介:
数据集名称: 双语数据集(基于双语参数映射 + 同义词扰动) 基本信息: - 平行翻译对总数:120,000 - 模板数量:171 - 产品术语数量:82 - 材质术语数量:14 - 颜色术语数量:12 数据划分: - 训练集 (train):96,000 - 验证集 (val):12,000 - 测试集 (test):12,000 数据处理统计: - 原始总数:120,000 - 去重后:120,000(无重复) - 质量过滤(bad_ratio):955 条(长度比例异常) - 术语标注覆盖率:94,112 条(78.4%) 领域分布: - 物流售后 (logistics_after_sales):39,730 - 产品描述 (product_description):39,529 - 交易 (transaction):39,786 数据集包含电商领域的三个子领域,覆盖翻译、售后、产品描述等典型场景。

Dataset Name: Bilingual Dataset (Based on Bilingual Parameter Mapping + Synonym Perturbation) Basic Information: - Total number of parallel translation pairs: 120,000 - Number of templates: 171 - Number of product terminology entries: 82 - Number of material terminology entries: 14 - Number of color terminology entries: 12 Data Split: - Training set (train): 96,000 - Validation set (val): 12,000 - Test set (test): 12,000 Data Processing Statistics: - Original total count: 120,000 - Post-deduplication count: 120,000 (no duplicates) - Quality filtering (bad_ratio): 955 entries with abnormal length ratios - Term annotation coverage: 94,112 entries (78.4%) Domain Distribution: - Logistics After-Sales: 39,730 - Product Description: 39,529 - Transaction: 39,786 This dataset covers three sub-domains in the e-commerce field, including typical scenarios such as translation, after-sales service and product description.
提供机构:
阿里云天池
创建时间:
2026-05-03
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个电商领域的双语平行语料库,包含12万条平行翻译对,采用双语参数映射和同义词扰动方法构建。数据覆盖物流售后、产品描述和交易三个子领域,并划分为训练集、验证集和测试集,其中术语标注覆盖率达78.4%。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务