Linguateca/harem

Name: Linguateca/harem
Creator: Linguateca
Published: 2024-01-18 11:04:35
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/Linguateca/harem

下载链接

链接失效反馈

官方服务：

资源简介：

HAREM是一个用于葡萄牙语命名实体识别任务的语料库，包含约93,000个单词，来自129篇不同文本，涵盖多种文体和语言变体。该数据集的版本划分遵循了[1]中的划分方式，其中7%的HAREM文档作为验证集，miniHAREM语料库（约65,000个单词）作为测试集。数据集有两个版本：一个包含10个不同命名实体类别（人物、组织、地点、价值、日期、标题、事物、事件、抽象概念和其他）的默认版本，另一个仅包含5个类别（人物、组织、地点、价值和日期）的选择性版本。需要注意的是，原始HAREM数据集有两个级别的NER细节，即“类别”和“子类型”，而此处处理的数据集版本仅使用了原始数据集的“类别”级别。

HAREM is a corpus for Portuguese named entity recognition (NER) tasks, containing approximately 93,000 words from 129 distinct texts spanning multiple genres and language varieties. The dataset split follows the scheme outlined in [1], where 7% of HAREM documents are allocated as the validation set, and the miniHAREM corpus (approximately 65,000 words) serves as the test set. The dataset has two variants: a default version with 10 distinct named entity categories (Person, Organization, Location, Value, Date, Title, Thing, Event, Abstract Concept, and Others), and a selective version that only includes 5 categories (Person, Organization, Location, Value, and Date). It should be noted that the original HAREM dataset features two levels of NER annotation granularity, namely "category" and "subtype", while the processed dataset variant utilized here only employs the "category" level of the original dataset.

提供机构：

Linguateca

原始信息汇总

数据集概述

数据集描述

数据集名称: HAREM
语言: 葡萄牙语
许可证: 未知
多语言性: 单语种
大小类别: n<1K
源数据集: 原始数据
任务类别: 词性标注
任务ID: 命名实体识别

数据集结构

数据实例

json { "id": "HAREM-871-07800", "ner_tags": [3, 0, 0, 3, 4, 4, 4, 4, 4, 4, 4, 4], "tokens": [ "Abraço", "Página", "Principal", "ASSOCIAÇÃO", "DE", "APOIO", "A", "PESSOAS", "COM", "VIH", "/", "SIDA" ] }

数据字段

id: 样本ID
tokens: 示例文本的词元
ner_tags: 每个词元的NER标签

NER标签对应列表：

"O", "B-PESSOA", "I-PESSOA", "B-ORGANIZACAO", "I-ORGANIZACAO", "B-LOCAL", "I-LOCAL", "B-TEMPO", "I-TEMPO", "B-VALOR", "I-VALOR", "B-ABSTRACCAO", "I-ABSTRACCAO", "B-ACONTECIMENTO", "I-ACONTECIMENTO", "B-COISA", "I-COISA", "B-OBRA", "I-OBRA", "B-OUTRO", "I-OUTRO"

NER标签格式与CoNLL共享任务相同：B表示短语的第一个词，I表示非初始词。

数据分割

数据集分为训练集、验证集和测试集，每个版本（默认和选择性）的分割如下：

分割	样本数
训练集	121
验证集	8
测试集	128

数据集创建

数据集配置

默认配置:
- 特征:
  - id: 字符串
  - tokens: 词元序列
  - ner_tags: NER标签序列
- 分割:
  - 训练集: 121个样本，1506373字节
  - 测试集: 128个样本，1062714字节
  - 验证集: 8个样本，51318字节
- 下载大小: 1887281字节
- 数据集大小: 2620405字节
选择性配置:
- 特征:
  - id: 字符串
  - tokens: 词元序列
  - ner_tags: NER标签序列
- 分割:
  - 训练集: 121个样本，1506373字节
  - 测试集: 128个样本，1062714字节
  - 验证集: 8个样本，51318字节
- 下载大小: 1715873字节
- 数据集大小: 2620405字节

搜集汇总

数据集介绍

构建方式

HAREM数据集的构建是基于葡萄牙语语料库，旨在为命名实体识别任务提供支持。该数据集包含了约9.3万个单词，来源于129篇不同类型和风格的文本。构建过程中，数据集分为训练集、验证集和测试集，遵循特定比例划分。数据标注采用专家生成的方式，对每个单词进行命名实体标签的标注，包括20个不同的实体类别。

特点

HAREM数据集的特点在于其专注于葡萄牙语命名实体识别任务，提供了两个版本：默认版本包含10个实体类别，选择性版本则包含5个实体类别。数据集的标注采用了层次化的标签体系，区分了实体类别和子类型。此外，数据集涵盖了多种文本类型和语言风格，使得模型训练更加全面。

使用方法

使用HAREM数据集时，用户可以根据需要选择默认版本或选择性版本。数据集以JSON格式提供，包含每个样本的ID、单词序列以及对应的命名实体标签。用户可以按照训练集、验证集和测试集的划分进行模型的训练和评估。需要注意的是，数据集的许可证信息未知，使用前应确保遵守相关法律法规。

背景与挑战

背景概述

HAREM数据集，全称为葡萄牙语高级命名实体识别评估竞赛数据集，是由Diana Santos等研究人员创建的葡萄牙语语料库。该数据集创建于2006年，主要用于命名实体识别（NER）任务，包含约9.3万个单词，涵盖129个不同文本，涉及多种体裁和语言变体。HAREM数据集分为两个版本，一个包含10个不同的命名实体类别，另一个选择性版本仅包含5个类别。该数据集在葡萄牙语处理领域具有重要影响力，为相关研究提供了宝贵的资源。

当前挑战

HAREM数据集在构建和应用过程中面临的挑战主要包括：1) 数据标注的准确性和一致性；2) 数据集规模较小，可能导致模型泛化能力不足；3) 数据集中可能存在的偏差和局限性，如语言变体的代表性不足；4) 个人和敏感信息的处理，以保护隐私和遵守相关法规。这些挑战对数据集的质量和实用性提出了更高的要求，需要研究人员在使用时进行谨慎评估和处理。

常用场景

经典使用场景

在自然语言处理领域，HAREM数据集作为葡萄牙语命名实体识别（NER）任务的专用语料库，其经典使用场景主要在于训练和评估NER模型。该数据集涵盖了多种文本类型和语言风格，为模型提供了丰富的学习素材，使其能够识别并分类文本中的不同实体，如人名、组织、地点等。

实际应用

在实际应用中，HAREM数据集的应用场景广泛，包括但不限于信息检索、语义搜索、文本摘要、自动问答系统等。它为开发能够理解和处理葡萄牙语文本的应用程序提供了基础数据支持，从而提高了这些应用程序的智能化水平和服务质量。

衍生相关工作

基于HAREM数据集，研究者们衍生出了一系列相关工作，如构建了专门的预训练语言模型、提出了新的NER识别算法、以及开展了跨语言和跨领域的NER研究。这些工作不仅扩展了数据集的应用范围，也为葡萄牙语自然语言处理领域带来了新的研究视角和技术突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集