five

jamie613/custom_NER

收藏
Hugging Face2024-04-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jamie613/custom_NER
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含150条从2011年至2019年间国家两厅院演奏厅演出节目介绍中抓取的数据,每条数据都详细标注了演出者、演出乐器/编制、演出作品作曲家、演出作品等信息。数据集还包括其他人名、其他乐器/编制、其他乐曲、乐团、音乐节、公司、演出厅舍以及其他杂项如比赛名等标签。为了适应模型处理,所有分词后长度超过512的简介文本都被手动删减至512以下,同时保留了文章的可读性。

该数据集包含150条从2011年至2019年间国家两厅院演奏厅演出节目介绍中抓取的数据,每条数据都详细标注了演出者、演出乐器/编制、演出作品作曲家、演出作品等信息。数据集还包括其他人名、其他乐器/编制、其他乐曲、乐团、音乐节、公司、演出厅舍以及其他杂项如比赛名等标签。为了适应模型处理,所有分词后长度超过512的简介文本都被手动删减至512以下,同时保留了文章的可读性。
提供机构:
jamie613
原始信息汇总

数据集概述

数据集任务类别

  • 标记分类(token-classification)

数据集语言

  • 中文(zh)

数据集内容

数据集用于从音乐会演出介绍中识别以下信息:

  1. 演出者
  2. 演出乐器/编制
  3. 演出作品作曲家
  4. 演出作品

标签说明

  • (B/I)PERF:演出者
  • (B/I)INST:演出乐器/编制
  • (B/I)COMP:演出作品作曲家
  • (B/I)MUSIC:演出作品
  • (B/I)PER:其他人名
  • (B/I)OTH:其他乐器/编制
  • (B/I)OTHP:其他乐曲
  • (B/I)ORG:乐团、音乐节、公司等
  • (B/I)LOC:演出厅舍
  • (B/I)MISC:其他,包括比赛名

数据集规模

  • 共150笔数据

数据来源

  • 原始资料为爬虫抓取2011-2019年间的国家两厅院演奏厅演出节目介绍,多数来自已关站的兩廳院售票系统,部分来自其他音乐会信息网站。

数据处理

  • 分词后长度大于512的简介文字,都手动删减至512以下,以保持文章的可读性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作