five

TBBTCorpus

收藏
github2018-05-18 更新2024-05-31 收录
下载链接:
https://github.com/TowerLeon/TBBTCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
《生活大爆炸》剧本语料库,包含该剧9季共220集的剧本数据,数据按季和集分类,详细记录了场景、角色对话等信息,并进行了文本预处理和分类。

The 'Big Bang Theory' Script Corpus, encompassing the script data of 220 episodes across 9 seasons of the series. The data is categorized by season and episode, meticulously documenting scenes, character dialogues, and other pertinent information, with text preprocessing and classification applied.
创建时间:
2018-01-11
原始信息汇总

TBBTCorpus 数据集概述

数据集来源与结构

  • 来源: 使用粉丝提供的《生活大爆炸》(The Big Bang Theory) 剧本作为数据集。
  • 内容: 包含9季共220集的剧本,按季和集分类。
  • 存储: 原始剧本存储在corpus/raw_corpus目录下,格式为文本。

数据集处理

  • 提取: 通过util.py脚本从网页链接中提取剧本内容,使用episode_links.json文件列出链接。
  • 预处理: 使用preprocessing.py脚本对数据进行预处理,生成corpus.json文件,该文件是按季/集分类的剧本JSON表示。

数据集格式

  • 剧本结构: 每个剧本包含多个场景,每个场景由不同角色的对话组成,格式如下:

    [Scene] SpeakerA : Some Text SpeakerB : Some Text SpeakerC : Some Text ... ... ... [Scene]

  • 场景处理: 每个场景被视为独立的处理单元,忽略角色进出场景的分割。

数据集特征

  • 角色分类: 根据对话数量,定义主要角色分类标签,包括"Leonard", "Sheldon", "Penny", "Howard", "Others"。
  • 场景信息: 每个场景记录包括场景描述、季/集信息、对话列表和参与者列表。
  • 对话信息: 每个对话记录包括说话者、接收者、词汇列表(去除停用词后)、每个词的POS标签、话题和ACT标签。

数据集应用

  • 词汇统计: 生成整个数据集的唯一词汇JSON文件,以词形还原后的词为键,出现频率为值,用于话题提取。
  • 工具与方法: 使用nltk工具包去除停用词,详细工具和方法可参考相关链接。
搜集汇总
数据集介绍
main_image_url
构建方式
TBBTCorpus数据集的构建基于粉丝提供的《生活大爆炸》剧本转录。数据集的构建者首先手动制作了所有剧本链接的列表,随后利用爬虫技术从网页中提取相关文本,并将其以文本格式存储在corpus/raw_corpus目录下。通过执行util.py脚本,可以重现这一构建过程,该脚本默认使用episode_links.json文件作为链接列表。预处理阶段,通过执行preprocessing.py脚本对数据进行清洗和格式化,生成JSON格式的剧本数据,便于后续处理。
特点
TBBTCorpus数据集的特点在于其详尽的剧本内容,每个剧本按照季节和集数分类,包含场景描述、对话轮次、参与者信息等。在处理过程中,每个场景被视为一个独立的单元,尽管存在角色进出场景的变化,但为了简化处理,数据集构建者选择忽略这些变化。此外,数据集还提供了去停用词后的词汇列表、词性标注、话题标签以及行为标签。数据集还记录了整个语料库中每个词的频率,这有助于后续的话题提取。
使用方法
用户可以通过执行提供的util.py和preprocessing.py脚本,按照指导步骤构建和使用TBBTCorpus数据集。构建完成后,数据集以JSON格式存储,便于读取和使用。用户可以进一步利用自然语言处理工具进行文本分析,例如词频统计、话题建模等。此外,数据集还支持进一步的训练和分类任务,用户可以根据需求进行相应的模型训练和评估。
背景与挑战
背景概述
TBBTCorpus,即《生活大爆炸》剧本语料库,是由研究团队基于粉丝提供的该剧剧本构建而成,旨在为自然语言处理、角色识别、对话分析等领域的研究提供支持。该数据集涵盖了《生活大爆炸》九季的全部剧本,总计220个场景,其构建时间为该剧播出期间。该数据集由相关研究人员精心整理,并已在学术研究中得到应用,对电视剧本处理和角色对话分析领域产生了积极影响。
当前挑战
在构建TBBTCorpus数据集的过程中,研究者面临了多项挑战。首先,如何准确提取和处理剧本中的对话场景是一个技术难题,特别是在处理场景变化和角色出入场时。其次,剧本中的额外信息(如角色状态描述)对提取纯对话文本造成了干扰,需要有效的处理方法。此外,由于对话数量不均,研究者在进行角色分类时不得不设定阈值,以确定主要角色,并将对话数量较少的角色归入'其他'类别。这些挑战均对数据集的质量和后续研究的有效性产生了重要影响。
常用场景
经典使用场景
TBBTCorpus数据集来源于《生活大爆炸》剧集的剧本,其经典使用场景主要在于自然语言处理和对话系统的研究。该数据集提供了完整的剧集剧本,并标注了角色、场景描述、对话内容等信息,为研究者提供了丰富的文本分析资源。
实际应用
在实际应用中,TBBTCorpus数据集可用于训练对话系统、情感分析工具,以及构建推荐系统,为用户提供个性化的剧情推荐。此外,它还可作为教育材料,帮助学习者了解语言使用的情境和语境。
衍生相关工作
基于TBBTCorpus数据集,研究者已衍生出多项相关工作,包括对话系统的优化、情感识别算法的改进、角色关系网络的分析等。这些工作进一步拓展了数据集的应用范围,推动了相关领域的学术研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作