five

Multilingual Parallel Corpus for Translation & LLM Training

收藏
Snowflake2025-12-10 更新2025-12-11 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZTHZCDT1T
下载链接
链接失效反馈
官方服务:
资源简介:
This dataset provides a large-scale, high-quality multilingual parallel corpus designed for machine translation systems, LLM fine-tuning, and cross-lingual natural language processing tasks. Each entry includes a pair of source and target sentences, language identifiers, and token-level metadata, enabling advanced preprocessing and model optimization. <p><br/></p> The corpus is curated from diverse conversational and domain-specific content to support real-world translation scenarios. All data is normalized, deduplicated, and aligned at the sentence level to ensure consistency and reliability for both production systems and research. <p><br/></p> **Key Features** - Clean sentence-aligned bilingual text pairs - Language identifiers included (lang1, lang2) - Token counts for fast preprocessing and filtering - Suitable for MT engines, LLM fine-tuning, and evaluation - Ideal for low-resource, conversational, or domain-specific translation tasks <p><br/></p> **Supported languages include** - Arabic (ar) - German (de) - English (en) - Spanish (es) - French (fr) - Hindi (hi) - Indonesian (id) - Italian (it) - Japanese (ja) - Korean (ko) - Malay (ms) - Portuguese (pt) - Russian (ru) - Thai (th) - Turkish (tr) - Vietnamese (vi)
提供机构:
Flitto
创建时间:
2025-12-09
原始信息汇总

Multilingual Parallel Corpus for Translation & LLM Training

数据集概述

该数据集提供了一个大规模、高质量的多语言平行语料库,专为机器翻译系统、LLM微调和跨语言自然语言处理任务而设计。每个条目包含源句子和目标句子对、语言标识符以及词元级元数据,支持高级预处理和模型优化。该语料库从多样化的对话和特定领域内容中精选而来,以支持现实世界的翻译场景。所有数据均经过标准化、去重和句子级对齐,以确保生产系统和研究的一致性和可靠性。

关键特性

  • 干净的句子对齐双语文本对
  • 包含语言标识符(lang1, lang2)
  • 提供词元数量以便快速预处理和过滤
  • 适用于机器翻译引擎、LLM微调和评估
  • 适用于低资源、对话或特定领域的翻译任务

支持的语言

  • 阿拉伯语 (ar)
  • 德语 (de)
  • 英语 (en)
  • 西班牙语 (es)
  • 法语 (fr)
  • 印地语 (hi)
  • 印尼语 (id)
  • 意大利语 (it)
  • 日语 (ja)
  • 韩语 (ko)
  • 马来语 (ms)
  • 葡萄牙语 (pt)
  • 俄语 (ru)
  • 泰语 (th)
  • 土耳其语 (tr)
  • 越南语 (vi)

业务需求

机器学习

该数据集满足构建多语言AI系统的组织的几个关键需求:

  1. 提升机器翻译性能:组织可利用该语料库训练或增强跨多种语言(尤其是低资源或特定领域场景)的机器翻译引擎。
  2. 增强LLM多语言能力:开发生成式AI应用的企业可以使用对齐数据进行指令微调、偏好建模或扩展多语言理解。
  3. 本地化与全球产品扩展:瞄准全球用户的公司可以通过整合准确的双语语料库,构建更好的语言模型、聊天机器人和自动化本地化工作流。
  4. 多语言产品的数据驱动决策:词元统计数据和元数据支持语料库分析、过滤和优化,以降低模型训练期间的计算成本。

数据字典

表:PARALLEL_CORPUS

列描述:

  • ID: Varchar
  • LANG1: Varchar
  • LANG2: Varchar
  • TEXT1: Varchar
  • TEXT2: Varchar
  • TEXT1_TOKEN_COUNT: Number
  • TEXT2_TOKEN_COUNT: Number
  • DOMAIN: Varchar
  • CREATED_AT: Timestamp_NTZ

使用示例

查询英语-阿拉伯语句子对

sql SELECT * FROM SAMPLES.PARALLEL_CORPUS WHERE (lang1 = ar AND lang2 = en) OR (lang1 = en AND lang2 = ar)

提供商信息

  • 提供商: Flitto
  • 定价: 免费试用
  • 试用期: 7天
  • 销售联系: sales@flitto.com
  • 支持链接: https://datalab.flitto.com

数据集技术详情

  • 类别: AI & ML, Machine Learning
  • 数据刷新频率: 静态数据
  • 云区域可用性 (AWS): 涵盖非洲(开普敦)、亚太(雅加达)、亚太(孟买)、亚太(大阪)等区域
  • 法律条款: 标准条款

关于提供商

Flitto是一家全球语言技术公司,提供支持文本、音频、图像和视频翻译的多语言翻译平台。除了众包翻译,Flitto还提供AI驱动的翻译服务、专业语言解决方案以及用于AI训练、本地化和企业多语言应用的高质量语言数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作