five

新华多语言外宣平行句对数据集

收藏
江苏数据交易所2026-01-30 收录
下载链接:
https://exchange.jsdataex.com/trade-home/#/project/tradingMarket/productDetail?productId=5663
下载链接
链接失效反馈
官方服务:
资源简介:
数据集为纯文本,计划汇聚共600万句对,覆盖中英日韩德阿6个语种。每条句对包含原文、译文、领域标签(政治、经济、文化等)、专有名词对齐、风格标签(正式/口语)及置信度评分。压缩后数据规模约1TB,支持按语种、领域、风格快速抽样。
提供机构:
江苏新华日报大数据有限公司
搜集汇总
背景与挑战
背景概述
该数据集是一个大规模多语言平行句对资源,包含600万句对,覆盖中文、英语、日语、韩语、德语和阿拉伯语六种语言。每条数据提供原文、译文、领域标签(如政治、经济、文化)、专有名词对齐、风格标签(正式或口语)和置信度评分等详细标注,支持按语种、领域和风格快速抽样,适用于机器翻译、跨语言信息检索等自然语言处理任务。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务