POPCORN French dataset

github2024-05-28 更新2024-06-01 收录

下载链接：

https://github.com/Emvista/popcorn-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含400个验证文本和400个训练文本，文本短小且事实性强，类似于信息报告。数据集中的文本经过手动编写和标注，基于描述的ontology进行标注，用于训练和评估信息抽取模型，如命名实体识别、共指消解和关系抽取。

This dataset comprises 400 validation texts and 400 training texts, which are concise and fact-based, resembling informational reports. The texts in the dataset have been manually written and annotated based on a descriptive ontology, and are utilized for training and evaluating information extraction models, such as named entity recognition, coreference resolution, and relation extraction.

创建时间：

2024-05-28

原始信息汇总

POPCORN Dataset Summary

Dataset Description

Type: French dataset
Division: 400 validation texts and 400 training texts
Content: Short, factual texts in the style of an information report
Purpose: Training and evaluation of Information Extraction models (Name Entity Recognition, Coreference Resolution, and Relation Extraction)

Dataset Format

Storage: Annotated texts stored in "train.json" and "test.json" within the corpus folder
Structure: Each file contains 400 texts structured as a dictionary with 3 keys:
- text: Raw text as a string
- entities: List of entities with details like ID, mentions, type, and value
- relations: List of relation tuples (subject_id, predicate, object_id)

POPCORN Ontology

Components: Types of entities, attributes, and relations used for annotation
Annotation: Gender is annotated as 2 relations (Male or Female) using the same entity as subject and object

POPCORN Type Distribution

Imbalance: The dataset is imbalanced in terms of entities and relations
Usage: Users may choose to discard low support classes

Benchmark

Models Evaluated: Unified Model and Boundary Smoothing Model
Metrics: Event Extraction, Entity Extraction, Attribute Extraction, Relation Extraction, and Coreference Resolution (F1 scores)
Results: Detailed performance metrics provided for each model

搜集汇总

数据集介绍

构建方式

POPCORN French数据集的构建基于人工编写和标注的400篇验证文本和400篇训练文本。这些文本以信息报告的风格呈现，简洁且事实性强。通过遵循特定的本体论进行标注，该数据集支持信息抽取模型的训练与评估，包括命名实体识别、共指消解和关系抽取等任务。

特点

POPCORN French数据集的显著特点在于其文本的简洁性和事实性，以及基于本体论的详细标注。数据集中的文本被划分为训练和测试两部分，每部分包含400篇文本，并以JSON格式存储，包含原始文本、实体和关系三部分信息。此外，数据集展示了实体和关系的分布不均衡性，用户可根据需求选择是否忽略低支持类。

使用方法

使用POPCORN French数据集时，用户可直接从GitHub仓库中下载'train.json'和'test.json'文件。这些文件以JSON格式存储，包含文本、实体和关系三部分信息。用户可根据需要提取和分析这些信息，用于训练和评估信息抽取模型。数据集的详细标注和本体论支持为模型的精确训练提供了坚实基础。

背景与挑战

背景概述

POPCORN French dataset是由Bastien Giordano等人于2024年创建的，旨在支持信息抽取任务，包括命名实体识别、共指消解和关系抽取。该数据集包含400个训练文本和400个验证文本，所有文本均为手动编写和标注，风格为信息报告。通过基于特定本体的标注，该数据集为训练和评估信息抽取模型提供了丰富的资源。其发布标志着在法语文本信息抽取领域的重要进展，为相关研究提供了新的基准。

当前挑战

POPCORN French dataset在构建过程中面临多重挑战。首先，文本的手动编写和标注过程耗时且复杂，确保标注的一致性和准确性是一项艰巨任务。其次，数据集在实体和关系类型上存在显著的不平衡，这可能影响模型的训练效果。此外，尽管数据集提供了详细的标注和本体信息，但如何有效利用这些信息进行模型训练和评估仍是一个开放的研究问题。最后，数据集的发布时间较新，相关研究成果和模型实现尚在完善中，这为后续研究者提供了探索和改进的空间。

常用场景

经典使用场景

POPCORN French数据集的经典使用场景主要集中在信息抽取领域，特别是命名实体识别（NER）、共指消解和关系抽取。该数据集通过手动编写和注释的短文本，为训练和评估这些信息抽取模型提供了丰富的资源。研究人员可以利用这些标注数据，开发和优化针对法语文本的信息抽取算法，从而提高其在实际应用中的准确性和效率。

实际应用

在实际应用中，POPCORN French数据集被广泛用于开发和优化法语信息抽取系统。例如，在新闻报道、法律文书和医疗记录等领域，该数据集帮助构建了能够自动识别和提取关键信息的系统。这些系统在提高信息处理效率、减少人工干预方面发挥了重要作用，特别是在需要快速处理大量法语文本的场景中。

衍生相关工作

基于POPCORN French数据集，研究人员开发了多种信息抽取模型，如统一模型和边界平滑模型，这些模型在命名实体识别和关系抽取任务中表现优异。此外，该数据集还激发了针对法语文本信息抽取的进一步研究，包括跨语言信息抽取方法的探索和多模态信息融合技术的应用。这些衍生工作不仅丰富了信息抽取领域的研究内容，还推动了相关技术的实际应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集