video_music_book_datasets

github2020-04-01 更新2024-05-31 收录

下载链接：

https://github.com/fighting41love/video_music_book_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

类似于人名/地名/组织机构名的命名体识别数据集，我花了几天时间标注了大约10000条视频/音乐/书籍数据。数据的意义希冀能够基于此训练NLP模型识别句子中的视频/音乐/书籍等名称信息。

This dataset is akin to named entity recognition datasets for personal names, geographical names, and organizational names. I have spent several days annotating approximately 10,000 entries of video, music, and book data. The significance of this dataset lies in its potential to train NLP models to recognize names of videos, music, books, and similar entities within sentences.

创建时间：

2019-10-15

原始信息汇总

数据集概述

数据集名称

video_music_book_datasets

数据集内容

数据集包含约10000条视频、音乐、书籍的命名实体识别（NER）数据。
数据集旨在训练NLP模型识别句子中的视频、音乐、书籍等名称信息。

数据集构建过程

初始标注：手动提取并标记了约5000条数据。
模型训练与校正：基于初始标注数据训练一个base模型，并使用该模型重新审视和校正标注数据。
扩展标注与审核：基于校正后的数据训练新模型，标注另外约5000条数据，并进行人工审核校验。
最终数据集：包含9632条数据。

数据集特点

难点：同一个名称可能既是书籍也是视频，部分句子可能只提供并列的名称，缺乏辅助信息。

示例

示例1： text 放暑假了，最近剧荒，陈情令也才一个星期更新三次，根本不够看，问问大家有什么好看的电视剧或电影推荐吗？最好是那种搞笑，温暖的那种，日剧也可以，好像道骏枝佑的剧还不错！ label: 陈情令/video
示例2： text 最近有没有好看的电视剧推荐，国内国外的都可以，前两天再追少年派，但剧情走向越来越扯，非常想给编剧寄刀片，现在想看些正常三观的剧，大家有没有推荐哒？ label: 少年派/video
示例3： text 最近有些剧荒啊，有什么好看的电视剧或者电影可以推荐么？我看的也比较杂，权力的游戏，黑色止血钳，最近看的韩剧囚犯医生是大爱啊，类似这种类型的可以给我推荐一些么？ label: 权力的游戏/video 黑色止血钳/video 囚犯医生/video
示例4： text 我个人比较喜欢听古风歌曲，然后呢，我歌单里面可以给你推荐几首，归去来兮琵琶行清明上河图好可以去试着搜索一些古装剧的主题曲或者插曲 label: 归去来兮/music 琵琶行/music 清明上河图好/music
示例5： text 不知道你喜欢什么类型的小说，最近在看十宗罪，悬疑烧脑类的，讲述的是公安部门打击违法犯罪的故事，现在已经出到第六部了，估计够你看一个月了。大冰写的书也可以尝试看一下，文艺小清新类型的 label: 十宗罪/book

数据集格式

数据集已转换为标准的BIO标注格式。

搜集汇总

数据集介绍

构建方式

video_music_book_datasets数据集的构建始于对视频、音乐、书籍领域命名实体识别的需求，采用半自动化标注方法。初始阶段，通过人工标注约5000条数据，进而训练基础模型，并以此模型辅助标注后续约5000条数据。经过人工审核校验，最终形成包含9632条数据的集合，全部数据遵循BIO标注格式。

特点

本数据集的特点在于其覆盖了视频、音乐、书籍三种类型的命名实体，能够满足特定领域NER任务的需求。数据标注上的难点，如同一名称跨类别现象，为模型训练提供了挑战，同时也增强了数据集的实用价值。数据集的多样性和复杂性，使其成为NLP领域研究的宝贵资源。

使用方法

背景与挑战

背景概述

video_music_book_datasets数据集的创建旨在推动自然语言处理（NLP）领域中的命名实体识别（NER）技术的发展。该数据集由研究人员通过手动标注和模型辅助标注相结合的方式构建于近期，包含了9632条关于视频、音乐和书籍的命名实体标注信息。其核心研究问题是如何准确识别文本中的视频、音乐和书籍名称，这对于改善信息检索、文本摘要和问答系统等应用至关重要。数据集的创建不仅丰富了NER任务的数据资源，也为相关领域的研究提供了有力支持，显示了命名实体识别技术在多媒体内容识别中的广阔应用前景。

当前挑战

该数据集在构建和应用过程中面临的主要挑战包括：1）实体的歧义性问题，即同一名称可能指代不同类型的实体（如书籍或视频），这增加了识别的难度；2）数据标注的不一致性，尽管通过人工审核校验来提高标注质量，但模型的自动标注和人工标注之间的差异可能导致数据集存在标注偏差；3）数据集中存在一些只提供名称而不提供额外上下文信息的句子，这要求模型具备更强的上下文理解和推断能力。这些挑战对于提升NER模型的鲁棒性和准确性提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，命名实体识别(NER)是一项基础且关键的技术。video_music_book_datasets数据集便是一个专注于视频、音乐、书籍命名实体识别的典范资源。其经典使用场景在于，通过对句子中的视频、音乐、书籍等名称进行识别，进而辅助构建更为智能的信息检索系统，使得用户在检索相关内容时能够获得更为精确的结果。

实际应用

在实际应用中，video_music_book_datasets数据集可以被用于改善内容推荐系统的准确性，如视频播放平台、音乐流媒体服务和在线书店的个性化推荐功能。通过准确识别用户评论或查询中的实体，系统可以更有效地理解用户意图，从而提供更加贴合用户兴趣的推荐。

衍生相关工作

基于video_music_book_datasets数据集，研究者们可以开展诸多衍生工作。例如，开发跨领域的NER模型，进行实体链接以发现不同领域间的关联性，或者构建用于情感分析、话题建模等任务的复合模型，进一步拓宽了自然语言处理技术的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集