Multilingual Parallel Corpus for Translation & LLM Training

Name: Multilingual Parallel Corpus for Translation & LLM Training
Creator: Flitto
Published: 2025-12-10 16:09:05
License: 暂无描述

Snowflake2025-12-10 更新2025-12-11 收录

下载链接：

https://app.snowflake.com/marketplace/listing/GZTHZCDT1T

下载链接

链接失效反馈

官方服务：

资源简介：

This dataset provides a large-scale, high-quality multilingual parallel corpus designed for machine translation systems, LLM fine-tuning, and cross-lingual natural language processing tasks. Each entry includes a pair of source and target sentences, language identifiers, and token-level metadata, enabling advanced preprocessing and model optimization. The corpus is curated from diverse conversational and domain-specific content to support real-world translation scenarios. All data is normalized, deduplicated, and aligned at the sentence level to ensure consistency and reliability for both production systems and research. **Key Features** - Clean sentence-aligned bilingual text pairs - Language identifiers included (lang1, lang2) - Token counts for fast preprocessing and filtering - Suitable for MT engines, LLM fine-tuning, and evaluation - Ideal for low-resource, conversational, or domain-specific translation tasks **Supported languages include** - Arabic (ar) - German (de) - English (en) - Spanish (es) - French (fr) - Hindi (hi) - Indonesian (id) - Italian (it) - Japanese (ja) - Korean (ko) - Malay (ms) - Portuguese (pt) - Russian (ru) - Thai (th) - Turkish (tr) - Vietnamese (vi)

提供机构：

Flitto

创建时间：

2025-12-09

原始信息汇总

Multilingual Parallel Corpus for Translation & LLM Training

数据集概述

该数据集提供了一个大规模、高质量的多语言平行语料库，专为机器翻译系统、LLM微调和跨语言自然语言处理任务而设计。每个条目包含源句子和目标句子对、语言标识符以及词元级元数据，支持高级预处理和模型优化。该语料库从多样化的对话和特定领域内容中精选而来，以支持现实世界的翻译场景。所有数据均经过标准化、去重和句子级对齐，以确保生产系统和研究的一致性和可靠性。

关键特性

干净的句子对齐双语文本对
包含语言标识符（lang1, lang2）
提供词元数量以便快速预处理和过滤
适用于机器翻译引擎、LLM微调和评估
适用于低资源、对话或特定领域的翻译任务

支持的语言

阿拉伯语 (ar)
德语 (de)
英语 (en)
西班牙语 (es)
法语 (fr)
印地语 (hi)
印尼语 (id)
意大利语 (it)
日语 (ja)
韩语 (ko)
马来语 (ms)
葡萄牙语 (pt)
俄语 (ru)
泰语 (th)
土耳其语 (tr)
越南语 (vi)

业务需求

机器学习

该数据集满足构建多语言AI系统的组织的几个关键需求：

提升机器翻译性能：组织可利用该语料库训练或增强跨多种语言（尤其是低资源或特定领域场景）的机器翻译引擎。
增强LLM多语言能力：开发生成式AI应用的企业可以使用对齐数据进行指令微调、偏好建模或扩展多语言理解。
本地化与全球产品扩展：瞄准全球用户的公司可以通过整合准确的双语语料库，构建更好的语言模型、聊天机器人和自动化本地化工作流。
多语言产品的数据驱动决策：词元统计数据和元数据支持语料库分析、过滤和优化，以降低模型训练期间的计算成本。

数据字典

表：PARALLEL_CORPUS

列描述：

ID: Varchar
LANG1: Varchar
LANG2: Varchar
TEXT1: Varchar
TEXT2: Varchar
TEXT1_TOKEN_COUNT: Number
TEXT2_TOKEN_COUNT: Number
DOMAIN: Varchar
CREATED_AT: Timestamp_NTZ

使用示例

查询英语-阿拉伯语句子对

sql SELECT * FROM SAMPLES.PARALLEL_CORPUS WHERE (lang1 = ar AND lang2 = en) OR (lang1 = en AND lang2 = ar)

提供商信息

提供商: Flitto
定价: 免费试用
试用期: 7天
销售联系: sales@flitto.com
支持链接: https://datalab.flitto.com

数据集技术详情

类别: AI & ML, Machine Learning
数据刷新频率: 静态数据
云区域可用性 (AWS): 涵盖非洲（开普敦）、亚太（雅加达）、亚太（孟买）、亚太（大阪）等区域
法律条款: 标准条款

关于提供商

Flitto是一家全球语言技术公司，提供支持文本、音频、图像和视频翻译的多语言翻译平台。除了众包翻译，Flitto还提供AI驱动的翻译服务、专业语言解决方案以及用于AI训练、本地化和企业多语言应用的高质量语言数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集