Multilingual Parallel Corpus for Translation & LLM Training
收藏Snowflake2025-12-10 更新2025-12-11 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZTHZCDT1T
下载链接
链接失效反馈官方服务:
资源简介:
This dataset provides a large-scale, high-quality multilingual parallel corpus designed for machine translation systems, LLM fine-tuning, and cross-lingual natural language processing tasks. Each entry includes a pair of source and target sentences, language identifiers, and token-level metadata, enabling advanced preprocessing and model optimization.
<p><br/></p>
The corpus is curated from diverse conversational and domain-specific content to support real-world translation scenarios. All data is normalized, deduplicated, and aligned at the sentence level to ensure consistency and reliability for both production systems and research.
<p><br/></p>
**Key Features**
- Clean sentence-aligned bilingual text pairs
- Language identifiers included (lang1, lang2)
- Token counts for fast preprocessing and filtering
- Suitable for MT engines, LLM fine-tuning, and evaluation
- Ideal for low-resource, conversational, or domain-specific translation tasks
<p><br/></p>
**Supported languages include**
- Arabic (ar)
- German (de)
- English (en)
- Spanish (es)
- French (fr)
- Hindi (hi)
- Indonesian (id)
- Italian (it)
- Japanese (ja)
- Korean (ko)
- Malay (ms)
- Portuguese (pt)
- Russian (ru)
- Thai (th)
- Turkish (tr)
- Vietnamese (vi)
提供机构:
Flitto
创建时间:
2025-12-09
原始信息汇总
Multilingual Parallel Corpus for Translation & LLM Training
数据集概述
该数据集提供了一个大规模、高质量的多语言平行语料库,专为机器翻译系统、LLM微调和跨语言自然语言处理任务而设计。每个条目包含源句子和目标句子对、语言标识符以及词元级元数据,支持高级预处理和模型优化。该语料库从多样化的对话和特定领域内容中精选而来,以支持现实世界的翻译场景。所有数据均经过标准化、去重和句子级对齐,以确保生产系统和研究的一致性和可靠性。
关键特性
- 干净的句子对齐双语文本对
- 包含语言标识符(lang1, lang2)
- 提供词元数量以便快速预处理和过滤
- 适用于机器翻译引擎、LLM微调和评估
- 适用于低资源、对话或特定领域的翻译任务
支持的语言
- 阿拉伯语 (ar)
- 德语 (de)
- 英语 (en)
- 西班牙语 (es)
- 法语 (fr)
- 印地语 (hi)
- 印尼语 (id)
- 意大利语 (it)
- 日语 (ja)
- 韩语 (ko)
- 马来语 (ms)
- 葡萄牙语 (pt)
- 俄语 (ru)
- 泰语 (th)
- 土耳其语 (tr)
- 越南语 (vi)
业务需求
机器学习
该数据集满足构建多语言AI系统的组织的几个关键需求:
- 提升机器翻译性能:组织可利用该语料库训练或增强跨多种语言(尤其是低资源或特定领域场景)的机器翻译引擎。
- 增强LLM多语言能力:开发生成式AI应用的企业可以使用对齐数据进行指令微调、偏好建模或扩展多语言理解。
- 本地化与全球产品扩展:瞄准全球用户的公司可以通过整合准确的双语语料库,构建更好的语言模型、聊天机器人和自动化本地化工作流。
- 多语言产品的数据驱动决策:词元统计数据和元数据支持语料库分析、过滤和优化,以降低模型训练期间的计算成本。
数据字典
表:PARALLEL_CORPUS
列描述:
- ID: Varchar
- LANG1: Varchar
- LANG2: Varchar
- TEXT1: Varchar
- TEXT2: Varchar
- TEXT1_TOKEN_COUNT: Number
- TEXT2_TOKEN_COUNT: Number
- DOMAIN: Varchar
- CREATED_AT: Timestamp_NTZ
使用示例
查询英语-阿拉伯语句子对
sql SELECT * FROM SAMPLES.PARALLEL_CORPUS WHERE (lang1 = ar AND lang2 = en) OR (lang1 = en AND lang2 = ar)
提供商信息
- 提供商: Flitto
- 定价: 免费试用
- 试用期: 7天
- 销售联系: sales@flitto.com
- 支持链接: https://datalab.flitto.com
数据集技术详情
- 类别: AI & ML, Machine Learning
- 数据刷新频率: 静态数据
- 云区域可用性 (AWS): 涵盖非洲(开普敦)、亚太(雅加达)、亚太(孟买)、亚太(大阪)等区域
- 法律条款: 标准条款
关于提供商
Flitto是一家全球语言技术公司,提供支持文本、音频、图像和视频翻译的多语言翻译平台。除了众包翻译,Flitto还提供AI驱动的翻译服务、专业语言解决方案以及用于AI训练、本地化和企业多语言应用的高质量语言数据集。



