five

somosnlp-hackathon-2023/podcasts-ner-es

收藏
Hugging Face2023-04-09 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2023/podcasts-ner-es
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从“Deforme Semanal”播客中提取的小段文本片段,并附有识别预定义实体集的注释。该数据集的目的是促进命名实体识别(NER)任务。数据集创建的目的是帮助识别播客中的名人、书籍或电影等实体。首先对音频进行转录,然后使用GPT-3进行注释,并使用Argilla进行整理。数据集为西班牙语,主要涵盖爱情、女权主义和艺术等主题,这些是播客的主要内容。

该数据集包含从“Deforme Semanal”播客中提取的小段文本片段,并附有识别预定义实体集的注释。该数据集的目的是促进命名实体识别(NER)任务。数据集创建的目的是帮助识别播客中的名人、书籍或电影等实体。首先对音频进行转录,然后使用GPT-3进行注释,并使用Argilla进行整理。数据集为西班牙语,主要涵盖爱情、女权主义和艺术等主题,这些是播客的主要内容。
提供机构:
somosnlp-hackathon-2023
原始信息汇总

数据集概述

数据集名称

"podcasts-ner-es"

数据集摘要

本数据集包含从"Deforme Semanal"播客中提取的小文本片段,并附有识别预定义实体集的注释。该数据集旨在促进命名实体识别(NER)任务,主要用于识别播客中的实体,如名人、书籍或电影。数据集内容主要涉及爱情、女权主义和艺术等主题,语言为西班牙语。

支持的任务

  • 命名实体识别

语言

  • 西班牙语

数据集结构

数据实例

每个数据实例包含以下字段:

  • text: 来自播客剧集的文本片段,不超过512个字符。
  • id: 数据集中每个实例的唯一识别号。
  • annotation: 包含以下字段的列表:
    • end: 实体在文本中出现的结束字符位置。
    • start: 实体在文本中出现的开始字符位置。
    • label: 实体的标签,来自预定义的实体集,包括people, products, books, animals, organizations, topics, dates, places, artista, objects,songs, 和 films。

数据分割

数据集分为训练集和测试集,训练集包含209个样本,测试集包含53个样本。数据分割使用Hugging Face datasets库的train_test_split函数,训练集占比0.8,种子为42。

数据集创建

数据收集与标准化

数据来源于YouTube上的"Deforme Semanal"播客播放列表,共约15集。音频通过OpenAI的Whisper转录为文本,并分割成不超过512个字符的片段。

注释过程

使用OpenAI的GPT-3进行注释,通过Argilla验证注释的质量。注释过程涉及识别西班牙语中的命名实体,类别包括书籍、电影、视频游戏、歌曲、地点、日期、主题、组织和人物。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作