mt-datasets

github2020-05-21 更新2024-05-31 收录

下载链接：

https://github.com/vistec-AI/mt-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

收集用于机器翻译工作流的双语/三语数据源，包括英语-泰语和中文-泰语平行语料库，以及其他用于标准NLP任务的英语数据集。

This dataset collects bilingual/trilingual data sources for machine translation workflows, including English-Thai and Chinese-Thai parallel corpora, as well as other English datasets for standard NLP tasks.

创建时间：

2019-05-18

原始信息汇总

数据集概述

双语/三语资源收集

目标语言对：en-th（英语-泰语）和 zh-th（中文-泰语）
目标句子数量：至少600,000句/语言对

数据源详情

来源	估计句子数	en-th	zh-th	备注
Indo-Pacific Defense Forum	45,300	◯	◯	apdf.ipynb
Ministry of Foreign Affairs	27,750	◯	✕	mfa.ipynb
Learning Thai with Post Today	485	◯	✕
NESDB	12,000	◯	✕	10-12th plans in pdf; others in scans

英语数据集

用途：不仅用于机器翻译，还用于其他NLP任务

来源	任务	句子数	许可证	安全性	相关论文	备注
COCO 2015 Image Captioning	image_captioning	414,113	CC BY-SA 4.0	O	NA
SWAG	inference	367,730	MIT	O	BERT	73,546 instances
Taskmaster-1	conversation	301,876	CC BY-SA 4.0	O	NA	169,469 sentences from self-dialog and 132,407 from Wizard-of-Oz dialogues; assuming one sentence per utterance
Coached Conversational Preference Elicitation (CCPE)	conversation	11,971	CC BY-SA 4.0	O	NA	assuming one sentence per utterance
Stanford Question Answering Dataset (SQuAD)	question_answering	254,309	CC BY-SA 4.0	O	BERT	123,990 sentences from contexts and 130,319 sentences from questions
STSbenchmark	semantic_similarity	17,256	CC BY-SA 3.0	O	BERT	8,628 sentence pairs
Microsoft Research Paraphrase Corpus	paraphrasing	11,600	MIT	O	BERT
SkyTrax User Review	sentiment	62,639	NA	X	NA	41396 airline reviews, 17721 airport reviews, 1258 seat reviews and 2264 lounge reviews
Quora Question Pairs	semantic_similarity	404,290	non-commercial	X	BERT
The Corpus of Linguistic Acceptability	grammatical_correctness	10,657	copyright	X	BERT
The Stanford Sentiment Treebank	sentiment_analysis	11,855	NA	X	BERT
Recognizing Textual Entailment	sentence_entailment	4,978	NA	X	BERT	2,489 sentence pairs

搜集汇总

数据集介绍

构建方式

mt-datasets数据集的构建主要聚焦于收集双语和三语平行语料库，特别是英语-泰语（en-th）和中文-泰语（zh-th）的平行句子。数据来源包括多个官方和公开资源，如《印太防务论坛》、泰国外交部网站以及《今日邮报》的学习泰语栏目等。每个来源的句子数量经过估算，确保每种语言对至少有60万句的规模。此外，数据集还包含了从标准NLP任务中翻译的英语数据集，以扩展其应用范围。

使用方法

mt-datasets的使用方法主要围绕其多语言平行语料库和翻译数据集展开。研究人员可以通过GitHub页面访问数据集的详细信息和下载链接。对于机器翻译任务，用户可以直接使用en-th和zh-th的平行句子进行模型训练和评估。对于其他NLP任务，如问答、语义相似性等，数据集提供了翻译后的英语数据，用户可以根据任务需求选择相应的子集。此外，数据集中的许可证信息和使用限制也为用户提供了明确的指导，确保数据的安全和合规使用。

背景与挑战

背景概述

mt-datasets数据集专注于收集双语和三语平行语料库，旨在支持机器翻译（MT）工作流。该数据集由多个来源构成，包括政府出版物、新闻文章以及学术资源，涵盖了英语-泰语（en-th）和中文-泰语（zh-th）的平行语料。其目标是确保每种语言对至少包含60万句对，以支持高质量的机器翻译模型训练。该数据集的构建反映了对低资源语言翻译需求的关注，尤其是泰语作为目标语言的翻译任务。通过整合多样化的数据来源，mt-datasets为机器翻译领域提供了重要的资源支持，推动了跨语言信息处理技术的发展。

当前挑战

mt-datasets在构建过程中面临多重挑战。首先，低资源语言的平行语料库获取难度较大，尤其是泰语与其他语言的配对数据较为稀缺，导致数据收集和标注的成本较高。其次，数据来源的多样性和格式不统一增加了数据清洗和预处理的复杂性，例如部分数据以PDF或扫描件形式存在，需经过复杂的文本提取和校对。此外，确保数据的质量和一致性也是一个重要挑战，尤其是在多语言环境下，翻译的准确性和语义对齐需要严格把控。最后，数据集的扩展性和适用性也受到限制，如何将收集到的语料库有效应用于其他自然语言处理任务仍需进一步探索。

常用场景

经典使用场景

mt-datasets数据集在机器翻译领域具有广泛的应用，特别是在英语-泰语和中文-泰语的双语或三语平行语料库构建中。该数据集通过整合来自不同来源的文本数据，如政府文件、新闻文章和学术报告，为研究人员提供了丰富的语言资源，支持高质量的机器翻译模型训练和评估。

解决学术问题

mt-datasets解决了机器翻译研究中数据稀缺的问题，尤其是在低资源语言对（如泰语与其他语言的翻译）中。通过提供大规模的平行语料库，该数据集显著提升了翻译模型的性能，并为跨语言信息检索、多语言文本生成等研究提供了基础支持。其多样化的数据来源也确保了模型在不同领域和语境下的泛化能力。

实际应用

在实际应用中，mt-datasets被广泛用于开发多语言翻译工具、跨语言搜索引擎以及多语言内容生成系统。例如，该数据集可以支持泰语与其他语言之间的实时翻译服务，帮助用户在国际交流、旅游和教育等领域中克服语言障碍。此外，它还为多语言社交媒体分析和跨文化研究提供了数据支持。

数据集最近研究