Tokyo Metropolitan University Paraphrase Corpus (TMUP)

github2024-04-11 更新2024-05-31 收录

下载链接：

https://github.com/tmu-nlp/paraphrase-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

TMUP是一个用于日语释义识别评估的语料库，包含655个句子对，其中363对为释义句子对，292对为非释义句子对。数据集通过使用Google的PBMT和NMT系统生成释义句子对，并从日文维基百科提取非释义句子对。此外，还通过计算句子对的词重叠率（Jaccard得分）来均匀抽样候选句子对。

TMUP is a corpus designed for the evaluation of Japanese paraphrase identification, comprising 655 sentence pairs, of which 363 are paraphrase pairs and 292 are non-paraphrase pairs. The dataset was constructed by generating paraphrase pairs using Google's PBMT and NMT systems, and extracting non-paraphrase pairs from the Japanese Wikipedia. Additionally, candidate sentence pairs were uniformly sampled by calculating the word overlap rate (Jaccard score) of the sentence pairs.

创建时间：

2017-05-24

原始信息汇总

Tokyo Metropolitan University Paraphrase Corpus (TMUP)

数据集概述

TMUP是一个用于日语释义识别的评估语料库，包含655个句子对。

363个释义句子对
292个非释义句子对

候选获取方法

使用Google PBMT和NMT生成句子对以获取释义实例
从日语Wikipedia提取句子对以获取非释义实例
计算每个句子对的词重叠率（Jaccard得分）并均匀采样候选

标注

两位标注者判断候选是否为释义。

数据格式

label <TAB> sentence_A_ja <TAB> sentence_B_ja <TAB> source_sentence_en (如适用)

引用信息

若使用此语料库，请引用以下出版物：

Yui Suzuki, Tomoyuki Kajiwara and Mamoru Komachi. Building a Non-Trivial Paraphrase Corpus using Multiple Machine Translation Systems. In Proceedings of ACL 2017 Student Research Workshop, Vancouver, Canada. July 2017 (to appear).

搜集汇总

数据集介绍

构建方式

东京都立大学复述语料库（TMUP）的构建过程严谨而系统。研究者通过使用Google的PBMT和NMT系统生成复述句对，确保了复述实例的多样性和复杂性。同时，从日本维基百科中提取非复述句对，以保证数据集的平衡性。为了进一步区分简单与复杂的复述实例，研究者计算了每对句子的词重叠率（Jaccard得分），并均匀采样，确保了数据集的全面性和代表性。

使用方法

TMUP数据集的使用方法简便而规范。用户可以通过标签（1表示复述，0表示非复述）快速识别句对的关系。数据格式清晰，每行包含标签、句子A、句子B以及（如有）源句子，便于直接导入和处理。该数据集适用于复述识别、文本相似度计算等多种自然语言处理任务，为研究者提供了丰富的实验资源。

背景与挑战

背景概述

东京都立大学复述语料库（TMUP）是由东京都立大学的研究人员于2017年创建，旨在为日语复述识别提供一个评估语料库。该语料库由655对句子组成，其中包括363对复述句子和292对非复述句子。主要研究人员包括Yui Suzuki、Tomoyuki Kajiwara和Mamoru Komachi，他们的研究重点是通过多种机器翻译系统构建一个非平凡的复述语料库。该语料库的创建不仅丰富了日语自然语言处理领域的资源，还为复述识别任务提供了宝贵的基准数据，推动了相关研究的发展。

当前挑战

TMUP数据集在构建过程中面临多项挑战。首先，获取复述和非复述实例的方法涉及使用Google的PBMT和NMT系统生成句子对，并从日语维基百科中提取非复述句子对，这要求对数据源的准确性和多样性进行严格控制。其次，为了确保语料库中包含平凡和非平凡的实例，研究人员采用了词重叠率（Jaccard得分）进行均匀采样，这一过程需要精确的算法设计和数据处理技术。此外，标注过程由两名标注者进行，确保了标注的一致性和准确性，但也增加了数据集构建的复杂性和成本。

常用场景

经典使用场景

东京都立大学复述语料库（TMUP）主要用于日语复述识别的评估任务。该数据集包含655对句子，其中363对为复述句子，292对为非复述句子。通过使用Google的PBMT和NMT系统生成复述句子，并从日语维基百科中提取非复述句子，TMUP为复述识别提供了丰富的训练和测试数据。研究者可以利用该数据集开发和评估复述识别模型，特别是在处理日语语境下的复述与非复述区分问题时，具有显著的应用价值。

解决学术问题

TMUP数据集解决了日语复述识别中的关键学术问题，特别是在区分复述与非复述句子方面。通过提供多样化的复述和非复述实例，该数据集帮助研究者开发和验证复述识别算法，从而推动自然语言处理领域的发展。此外，TMUP还解决了复述识别中的“平凡”与“非平凡”实例的平衡问题，通过计算词重叠率（Jaccard得分）并均匀采样，确保了数据集的多样性和代表性。

实际应用

TMUP数据集在实际应用中具有广泛的应用场景，特别是在日语自然语言处理领域。例如，在机器翻译系统中，复述识别可以帮助提高翻译的准确性和流畅性；在信息检索系统中，复述识别可以提升查询匹配的效率和精度。此外，TMUP还可用于开发智能对话系统，通过识别用户输入的复述句式，提供更加个性化和精准的回复。

数据集最近研究