TBBTCorpus

github2018-05-18 更新2024-05-31 收录

下载链接：

https://github.com/TowerLeon/TBBTCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

《生活大爆炸》剧本语料库，包含该剧9季共220集的剧本数据，数据按季和集分类，详细记录了场景、角色对话等信息，并进行了文本预处理和分类。

The 'Big Bang Theory' Script Corpus, encompassing the script data of 220 episodes across 9 seasons of the series. The data is categorized by season and episode, meticulously documenting scenes, character dialogues, and other pertinent information, with text preprocessing and classification applied.

创建时间：

2018-01-11

原始信息汇总

TBBTCorpus 数据集概述

数据集来源与结构

来源: 使用粉丝提供的《生活大爆炸》(The Big Bang Theory) 剧本作为数据集。
内容: 包含9季共220集的剧本，按季和集分类。
存储: 原始剧本存储在corpus/raw_corpus目录下，格式为文本。

数据集处理

提取: 通过util.py脚本从网页链接中提取剧本内容，使用episode_links.json文件列出链接。
预处理: 使用preprocessing.py脚本对数据进行预处理，生成corpus.json文件，该文件是按季/集分类的剧本JSON表示。

数据集格式

剧本结构: 每个剧本包含多个场景，每个场景由不同角色的对话组成，格式如下：

[Scene] SpeakerA : Some Text SpeakerB : Some Text SpeakerC : Some Text ... ... ... [Scene]
场景处理: 每个场景被视为独立的处理单元，忽略角色进出场景的分割。

数据集特征

角色分类: 根据对话数量，定义主要角色分类标签，包括"Leonard", "Sheldon", "Penny", "Howard", "Others"。
场景信息: 每个场景记录包括场景描述、季/集信息、对话列表和参与者列表。
对话信息: 每个对话记录包括说话者、接收者、词汇列表（去除停用词后）、每个词的POS标签、话题和ACT标签。

数据集应用

词汇统计: 生成整个数据集的唯一词汇JSON文件，以词形还原后的词为键，出现频率为值，用于话题提取。
工具与方法: 使用nltk工具包去除停用词，详细工具和方法可参考相关链接。

搜集汇总

数据集介绍

构建方式

TBBTCorpus数据集的构建基于粉丝提供的《生活大爆炸》剧本转录。数据集的构建者首先手动制作了所有剧本链接的列表，随后利用爬虫技术从网页中提取相关文本，并将其以文本格式存储在corpus/raw_corpus目录下。通过执行util.py脚本，可以重现这一构建过程，该脚本默认使用episode_links.json文件作为链接列表。预处理阶段，通过执行preprocessing.py脚本对数据进行清洗和格式化，生成JSON格式的剧本数据，便于后续处理。

特点

TBBTCorpus数据集的特点在于其详尽的剧本内容，每个剧本按照季节和集数分类，包含场景描述、对话轮次、参与者信息等。在处理过程中，每个场景被视为一个独立的单元，尽管存在角色进出场景的变化，但为了简化处理，数据集构建者选择忽略这些变化。此外，数据集还提供了去停用词后的词汇列表、词性标注、话题标签以及行为标签。数据集还记录了整个语料库中每个词的频率，这有助于后续的话题提取。

使用方法

用户可以通过执行提供的util.py和preprocessing.py脚本，按照指导步骤构建和使用TBBTCorpus数据集。构建完成后，数据集以JSON格式存储，便于读取和使用。用户可以进一步利用自然语言处理工具进行文本分析，例如词频统计、话题建模等。此外，数据集还支持进一步的训练和分类任务，用户可以根据需求进行相应的模型训练和评估。

背景与挑战

背景概述

TBBTCorpus，即《生活大爆炸》剧本语料库，是由研究团队基于粉丝提供的该剧剧本构建而成，旨在为自然语言处理、角色识别、对话分析等领域的研究提供支持。该数据集涵盖了《生活大爆炸》九季的全部剧本，总计220个场景，其构建时间为该剧播出期间。该数据集由相关研究人员精心整理，并已在学术研究中得到应用，对电视剧本处理和角色对话分析领域产生了积极影响。

当前挑战

在构建TBBTCorpus数据集的过程中，研究者面临了多项挑战。首先，如何准确提取和处理剧本中的对话场景是一个技术难题，特别是在处理场景变化和角色出入场时。其次，剧本中的额外信息（如角色状态描述）对提取纯对话文本造成了干扰，需要有效的处理方法。此外，由于对话数量不均，研究者在进行角色分类时不得不设定阈值，以确定主要角色，并将对话数量较少的角色归入'其他'类别。这些挑战均对数据集的质量和后续研究的有效性产生了重要影响。

常用场景

经典使用场景

TBBTCorpus数据集来源于《生活大爆炸》剧集的剧本，其经典使用场景主要在于自然语言处理和对话系统的研究。该数据集提供了完整的剧集剧本，并标注了角色、场景描述、对话内容等信息，为研究者提供了丰富的文本分析资源。

实际应用

在实际应用中，TBBTCorpus数据集可用于训练对话系统、情感分析工具，以及构建推荐系统，为用户提供个性化的剧情推荐。此外，它还可作为教育材料，帮助学习者了解语言使用的情境和语境。

衍生相关工作

基于TBBTCorpus数据集，研究者已衍生出多项相关工作，包括对话系统的优化、情感识别算法的改进、角色关系网络的分析等。这些工作进一步拓展了数据集的应用范围，推动了相关领域的学术研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集