somosnlp-hackathon-2023/podcasts-ner-es
收藏Hugging Face2023-04-09 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2023/podcasts-ner-es
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从“Deforme Semanal”播客中提取的小段文本片段,并附有识别预定义实体集的注释。该数据集的目的是促进命名实体识别(NER)任务。数据集创建的目的是帮助识别播客中的名人、书籍或电影等实体。首先对音频进行转录,然后使用GPT-3进行注释,并使用Argilla进行整理。数据集为西班牙语,主要涵盖爱情、女权主义和艺术等主题,这些是播客的主要内容。
该数据集包含从“Deforme Semanal”播客中提取的小段文本片段,并附有识别预定义实体集的注释。该数据集的目的是促进命名实体识别(NER)任务。数据集创建的目的是帮助识别播客中的名人、书籍或电影等实体。首先对音频进行转录,然后使用GPT-3进行注释,并使用Argilla进行整理。数据集为西班牙语,主要涵盖爱情、女权主义和艺术等主题,这些是播客的主要内容。
提供机构:
somosnlp-hackathon-2023
原始信息汇总
数据集概述
数据集名称
"podcasts-ner-es"
数据集摘要
本数据集包含从"Deforme Semanal"播客中提取的小文本片段,并附有识别预定义实体集的注释。该数据集旨在促进命名实体识别(NER)任务,主要用于识别播客中的实体,如名人、书籍或电影。数据集内容主要涉及爱情、女权主义和艺术等主题,语言为西班牙语。
支持的任务
- 命名实体识别
语言
- 西班牙语
数据集结构
数据实例
每个数据实例包含以下字段:
text: 来自播客剧集的文本片段,不超过512个字符。id: 数据集中每个实例的唯一识别号。annotation: 包含以下字段的列表:end: 实体在文本中出现的结束字符位置。start: 实体在文本中出现的开始字符位置。label: 实体的标签,来自预定义的实体集,包括people, products, books, animals, organizations, topics, dates, places, artista, objects,songs, 和 films。
数据分割
数据集分为训练集和测试集,训练集包含209个样本,测试集包含53个样本。数据分割使用Hugging Face datasets库的train_test_split函数,训练集占比0.8,种子为42。
数据集创建
数据收集与标准化
数据来源于YouTube上的"Deforme Semanal"播客播放列表,共约15集。音频通过OpenAI的Whisper转录为文本,并分割成不超过512个字符的片段。
注释过程
使用OpenAI的GPT-3进行注释,通过Argilla验证注释的质量。注释过程涉及识别西班牙语中的命名实体,类别包括书籍、电影、视频游戏、歌曲、地点、日期、主题、组织和人物。



