OpenMWE Corpus

github2022-07-03 更新2024-05-31 收录

下载链接：

https://github.com/nlp-waseda/OpenMWE

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库专为成语标记识别任务设计，每个示例句子都标注了相应短语是否作为成语或字面短语使用。语料库包含102,334个示例，每个示例包含标签、ID、词元和示例本身。原始数据来源于日语网络语料库。

This corpus is specifically designed for the task of idiom token recognition, with each example sentence annotated to indicate whether the corresponding phrase is used as an idiom or a literal phrase. The corpus comprises 102,334 examples, each of which includes a label, an ID, a lemma, and the example itself. The original data is sourced from a Japanese web corpus.

创建时间：

2022-07-03

原始信息汇总

数据集概述

数据集名称

OpenMWE Corpus

数据集设计目的

用于成语标记识别任务，即每个示例句子都标注了标签，指示相应短语是作为成语还是字面短语使用。

数据集结构

标签（Label）：指示示例是正例（I）还是负例（L）。
ID：指示示例中包含的成语编号。
词元（Lemma）：显示示例中的成语及其规范形式。
示例（Example）：示例本身，成语成分用"<"和">"标记。

数据集规模

基本标注每个成语至1000个示例，部分成语超过1000个。

原始数据来源

Web日语文本。

字符编码

euc-jp。

数据集总结

包含102,334个示例，详细分布如下：

Class C

3034 3018 右から左 2357 3047 水を差す 1884 3037 水と油 ...
Class D

1320 2677 腹を割る 1309 2584 鼻が高い 1279 3191 胸を痛める ...

搜集汇总

数据集介绍

构建方式

OpenMWE Corpus的构建基于日语网络语料库，旨在为成语识别任务提供标注数据。每个例句均标注了标签，指示该例句中的短语是作为成语使用还是字面意义使用。标注过程中，每个成语的例句数量尽可能达到1000条，部分成语的例句数量甚至超过此标准。例句中的成语成分通过特定符号进行标记，确保数据的清晰性和可操作性。

特点

OpenMWE Corpus包含102,334条例句，涵盖了丰富的日语成语及其字面用法。每个例句均标注了标签（I表示成语，L表示字面意义）、成语的唯一编号、成语的标准形式以及例句本身。数据集通过严格的标注流程确保了高质量的语言资源，为成语识别研究提供了坚实的基础。此外，数据集的规模和多类别分布使其适用于多种自然语言处理任务。

使用方法

OpenMWE Corpus适用于成语识别、语义分析等自然语言处理任务。用户可通过标签信息区分成语和字面意义的例句，利用成语的唯一编号和标准形式进行进一步分析。数据集的标注格式清晰，便于直接用于模型训练和评估。此外，用户可根据需求筛选特定成语的例句，或结合其他语言资源进行扩展研究。

背景与挑战

背景概述

OpenMWE Corpus是由日本京都大学与NTT通信科学实验室合作开发的一个专门用于日语惯用语识别任务的数据集。该数据集由Chikara Hashimoto和Daisuke Kawahara等研究人员于2008年创建，旨在通过标注句子中的惯用语和字面意义短语，为自然语言处理中的惯用语识别提供支持。数据集包含102,334个例句，每个例句都标注了是否包含惯用语及其对应的惯用语ID和规范形式。该数据集的构建基于网络文本，涵盖了丰富的日语惯用语实例，为日语惯用语识别研究提供了重要的数据基础。相关研究成果已发表在多个国际顶级会议和期刊上，如EMNLP和COLING/ACL，对日语自然语言处理领域产生了深远影响。

当前挑战

OpenMWE Corpus在构建和应用过程中面临多重挑战。首先，惯用语识别任务本身具有较高的复杂性，惯用语与字面意义短语之间的界限模糊，尤其是在多义词和上下文依赖的情况下，准确识别惯用语成为一大难题。其次，数据集的构建依赖于网络文本，数据来源的多样性和质量参差不齐，导致数据清洗和标注工作异常繁重。此外，由于网络文本的版权问题，部分数据可能需要根据用户请求进行移除，这对数据集的完整性和一致性提出了挑战。最后，尽管数据集规模较大，但某些惯用语的实例数量仍然不足，可能影响模型的泛化能力。这些挑战不仅反映了惯用语识别任务的复杂性，也为未来研究提供了改进方向。

常用场景

经典使用场景

OpenMWE Corpus 主要用于日语习语识别任务，特别是在自然语言处理领域中的习语与字面意义区分问题。该数据集通过标注每个例句中的习语使用情况，为研究者提供了一个丰富的语料库，用于训练和评估习语识别模型。其经典使用场景包括在机器翻译、文本理解和语义分析中，帮助系统更准确地理解和使用习语。

实际应用

在实际应用中，OpenMWE Corpus 被广泛用于开发智能语言处理工具，如机器翻译系统和文本分析工具。通过利用该数据集，这些工具能够更准确地处理包含习语的文本，从而提高翻译质量和文本理解的准确性。此外，该数据集还被用于教育领域，帮助学习者更好地理解和掌握日语习语的使用。

衍生相关工作

OpenMWE Corpus 的发布催生了一系列相关研究，特别是在习语识别和语义分析领域。例如，基于该数据集的研究提出了结合习语特定特征的词义消歧方法，显著提升了习语识别的准确性。此外，该数据集还被用于开发新的机器学习模型，如基于深度学习的习语识别算法，进一步推动了自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集