somosnlp-hackathon-2023/podcasts-ner-es

Name: somosnlp-hackathon-2023/podcasts-ner-es
Creator: somosnlp-hackathon-2023
Published: 2023-04-09 23:40:50
License: 暂无描述

Hugging Face2023-04-09 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp-hackathon-2023/podcasts-ner-es

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从“Deforme Semanal”播客中提取的小段文本片段，并附有识别预定义实体集的注释。该数据集的目的是促进命名实体识别（NER）任务。数据集创建的目的是帮助识别播客中的名人、书籍或电影等实体。首先对音频进行转录，然后使用GPT-3进行注释，并使用Argilla进行整理。数据集为西班牙语，主要涵盖爱情、女权主义和艺术等主题，这些是播客的主要内容。

提供机构：

somosnlp-hackathon-2023

原始信息汇总

数据集概述

数据集名称

"podcasts-ner-es"

数据集摘要

本数据集包含从"Deforme Semanal"播客中提取的小文本片段，并附有识别预定义实体集的注释。该数据集旨在促进命名实体识别（NER）任务，主要用于识别播客中的实体，如名人、书籍或电影。数据集内容主要涉及爱情、女权主义和艺术等主题，语言为西班牙语。

支持的任务

命名实体识别

语言

西班牙语

数据集结构

数据实例

每个数据实例包含以下字段：

text: 来自播客剧集的文本片段，不超过512个字符。
id: 数据集中每个实例的唯一识别号。
annotation: 包含以下字段的列表：
- end: 实体在文本中出现的结束字符位置。
- start: 实体在文本中出现的开始字符位置。
- label: 实体的标签，来自预定义的实体集，包括people, products, books, animals, organizations, topics, dates, places, artista, objects,songs, 和 films。

数据分割

数据集分为训练集和测试集，训练集包含209个样本，测试集包含53个样本。数据分割使用Hugging Face datasets库的train_test_split函数，训练集占比0.8，种子为42。

数据集创建

数据收集与标准化

数据来源于YouTube上的"Deforme Semanal"播客播放列表，共约15集。音频通过OpenAI的Whisper转录为文本，并分割成不超过512个字符的片段。

注释过程

使用OpenAI的GPT-3进行注释，通过Argilla验证注释的质量。注释过程涉及识别西班牙语中的命名实体，类别包括书籍、电影、视频游戏、歌曲、地点、日期、主题、组织和人物。

5,000+

优质数据集

54 个

任务类型

进入经典数据集