문장 내 게체간 관계 추출 데이터 제작

github2022-12-25 更新2024-05-31 收录

下载链接：

https://github.com/boostcampaitech4lv23nlp1/level2_dataannotation_nlp-level2-nlp-01

下载链接

链接失效反馈

官方服务：

资源简介：

该项目旨在利用维基百科中关于‘昆虫’关键词的原始语料库，制作用于关系抽取任务的标注语料库。数据集包括训练集、验证集和评估集，共计约1500个数据点。数据集经过数据检查和IAA测试，用于自然语言处理任务。

This project aims to utilize the raw corpus related to the keyword 'insects' from Wikipedia to create an annotated corpus for relation extraction tasks. The dataset includes training, validation, and evaluation sets, totaling approximately 1500 data points. It has undergone data inspection and IAA testing, and is intended for natural language processing tasks.

创建时间：

2022-12-06

原始信息汇总

数据集概述

数据集名称

Naver Boostcamp AI Tech level 2 NLP 1조

数据集目标

利用维基百科中关于“昆虫”关键词的原始语料库，制作用于关系抽取任务的标注语料库。

数据集构成

训练集：1,022个样本
验证集：129个样本
评估集：129个样本

数据集制作过程

基于约1500个“昆虫”关键词的原始数据制作数据集。
完成数据检查和IAA测试。

数据集质量评估

IAA测试结果：
- 二次试点标签后：Fleisss Kappa = 0.731
- 最终试点标签后：Fleisss Kappa = 0.815

数据集评估指标

准确率：0.84
微平均F1分数：85.86
AUPRC：85.08

数据集文件结构

包含训练、验证和评估集的CSV文件。
包含计算IAA和模型训练的相关脚本和配置文件。

数据集使用命令

训练命令：$ python main.py --augment [value]
推理命令：$ python inference.py --augment [value]

以上信息概述了该数据集的基本情况、制作过程、质量评估、评估指标以及使用方法。

搜集汇总

数据集介绍

构建方式

该数据集以自然语言处理领域中的实体关系抽取任务为核心，通过从维基百科中提取与‘昆虫’相关的原始语料，构建了一个专门用于关系抽取的标注语料库。数据集的构建过程包括多个阶段，如初步的标注指南制定、两次试点标注、标注指南的修订以及最终的标注一致性测试（IAA）。整个过程中，标注者之间的Fleiss's Kappa系数从0.731提升至0.815，确保了数据的高质量和一致性。

特点

该数据集包含1,022个训练样本、129个验证样本和129个评估样本，涵盖了丰富的实体关系类型。数据集的特点在于其高质量的标注和严格的标注一致性测试，确保了数据的可靠性和适用性。此外，数据集还提供了详细的评估指标，包括准确率、微平均F1分数和AUPRC，为模型的性能评估提供了全面的参考。

使用方法

该数据集的使用方法主要围绕自然语言处理模型的训练和评估展开。用户可以通过提供的命令行工具进行模型的训练和推理。训练时，用户需指定模型名称、批量大小、学习率等参数，并指定训练、验证和测试数据集的路径。推理时，用户只需指定模型名称和预测数据集的路径即可。数据集的使用流程清晰，便于用户快速上手并进行模型的开发和评估。

背景与挑战

背景概述

문장 내 게체간 관계 추출 데이터 제작数据集由Naver Boostcamp AI Tech的NLP团队于2022年12月创建，旨在解决自然语言处理领域中实体间关系抽取的核心问题。该数据集以韩语为主，基于维基百科中与‘昆虫’相关的原始语料，构建了一个包含1022个训练样本、129个验证样本和129个评估样本的标注语料库。通过多次文件标注和IAA（Inter-Annotator Agreement）测试，数据集的Fleiss's Kappa值达到0.815，显示出较高的标注一致性。该数据集不仅为韩语NLP研究提供了重要资源，还为多语言关系抽取任务提供了参考。

当前挑战

문장 내 게체간 관계 추출 데이터 제작数据集在构建过程中面临多重挑战。首先，实体间关系抽取任务本身具有复杂性，尤其是在韩语等形态丰富的语言中，实体边界和关系类型的界定尤为困难。其次，数据标注过程中需要确保标注者之间的一致性，尽管最终Fleiss's Kappa值较高，但初期标注的调整和优化耗费了大量时间。此外，数据集的规模相对较小，可能限制了模型在更广泛场景下的泛化能力。最后，如何将标注数据有效地应用于模型训练，并提升模型的准确性和鲁棒性，仍是未来研究的重要方向。

常用场景

经典使用场景

该数据集主要用于自然语言处理领域中的实体关系抽取任务。通过从维基百科中提取的‘昆虫’相关原始语料，数据集构建了一个包含1022个训练样本、129个验证样本和129个评估样本的标注语料库。这一数据集特别适用于研究韩语及其他语言中的实体间关系识别，帮助模型学习如何在复杂句子中准确捕捉实体间的语义关联。

衍生相关工作

基于该数据集，研究人员已经开展了多项相关工作，特别是在多语言实体关系抽取模型的优化和评估方面。例如，一些研究利用该数据集训练了基于Transformer的预训练模型，显著提升了韩语及其他语言中的关系抽取性能。此外，该数据集还被用于开发新的标注工具和方法，进一步推动了自然语言处理领域的技术进步。

数据集最近研究