TBBTCorpus

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/skashyap7/TBBTCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

《The Big Bang Theory》转录数据集，包含了该剧9季共220集的场景转录文本，数据按季节和集数分类。数据集详细记录了每个场景的对话、参与者、词汇和语法标签等信息，用于语言学和文本分析研究。

The transcription dataset of 'The Big Bang Theory' includes scene transcription texts from all 220 episodes across 9 seasons of the show, categorized by season and episode number. The dataset meticulously records dialogues, participants, vocabulary, and grammatical tags for each scene, serving as a valuable resource for linguistic and textual analysis research.

创建时间：

2016-11-10

原始信息汇总

数据集概述

数据集名称

TBBTCorpus：The Big Bang Theory Transcript Corpus

数据集内容

数据集包含《生活大爆炸》（The Big Bang Theory）9个季度的剧本，共220集。
剧本内容从博客网站的网页中提取，每个季度和每集的剧本都被分类整理。

数据集结构

原始数据：存储在corpus/raw_corpus目录下，为文本格式。
处理后的数据：通过util.py和preprocessing.py脚本处理，生成JSON格式的数据集。

数据集处理

提取过程：手动构建URL列表，通过网络爬虫提取相关文本。
预处理：包括去除停用词、词性标注、主题提取等。
数据格式：每个剧本片段（Scene）包含多个对话轮次（Turns），每个轮次记录发言人、接收者、词汇列表、词性标签、主题标签等。

数据集特点

场景处理：每个场景被视为独立的处理单元，忽略角色进出场景的分割。
发言人信息处理：通过简单的括号解析方法提取发言人名称。
角色分类：根据对话数量定义主要角色和“其他”类别，共五个分类。

数据集应用

数据集用于剧本分析，包括场景描述、季节和集数信息、参与者列表等。
通过自然语言处理工具（如NLTK）进行文本分析，包括停用词去除和词性标注。

数据集文件

episode_links.json：包含所有剧集链接的JSON文件。
corpus.json：包含季节/集数分类的剧本JSON表示。

数据集生成脚本

util.py：用于从网页提取剧本内容。
preprocessing.py：用于对数据进行预处理。

数据集详细结构

每个场景记录包括：场景描述、季节_集数、对话轮次列表、参与者列表。
每个对话轮次记录包括：发言人、接收者、词汇列表（去除停用词后）、词性标签、主题标签、ACT标签。

搜集汇总

数据集介绍

构建方式

TBBTCorpus数据集的构建基于《The Big Bang Theory》剧集的爱好者提供的剧本。研究团队首先手动整理了所有剧集的URL链接，随后通过网络爬虫技术从这些网页中提取相关文本，并将其存储在corpus/raw_corpus目录下。为了进一步处理数据，团队编写了util.py脚本，该脚本使用episode_links.json文件中的链接列表进行数据抓取，并生成corpus.json文件，该文件以JSON格式存储了按季和集分类的剧本内容。

特点

TBBTCorpus数据集的一个显著特点是其结构化的场景和对话记录。每个场景被视为一个独立的处理单元，包含场景描述、季集信息、参与者列表以及对话轮次。每个对话轮次详细记录了说话者、接收者、去停用词后的词汇列表、词性标签、话题标签以及行为标签。此外，数据集还生成了一个包含整个语料库中唯一词汇及其出现频率的JSON文件，这对于话题提取等任务非常有用。

使用方法

使用TBBTCorpus数据集时，用户可以通过运行util.py脚本重新生成语料库，或使用preprocessing.py脚本对数据进行预处理。数据集的JSON格式使得用户可以轻松访问和分析特定季集的对话内容。此外，数据集还提供了词汇频率统计，用户可以利用这些信息进行更深入的文本分析，如话题建模和角色对话模式研究。

背景与挑战

背景概述

TBBTCorpus，即《The Big Bang Theory》剧本语料库，是由研究人员从粉丝网站上收集的《The Big Bang Theory》九季（共220集）的剧本构建而成。该数据集的核心研究问题在于如何从非结构化的剧本文本中提取有用的对话信息，并进行有效的分类与分析。通过手动构建链接列表并使用网络爬虫技术，研究人员成功地将剧本内容提取并整理为结构化的JSON格式，便于后续的自然语言处理任务。该数据集的创建不仅为对话分析、角色行为建模等研究提供了丰富的语料资源，也为情感分析、主题提取等领域的研究奠定了基础。

当前挑战

在构建TBBTCorpus的过程中，研究人员面临了多个挑战。首先，剧本中的场景划分并非总是清晰，尤其是在角色进出场景时，理论上的场景切换与实际的对话内容之间存在模糊性。其次，部分对话中包含额外的属性信息，如角色状态或动作描述，这些信息需要被有效去除以准确提取说话者信息。此外，由于并非所有角色都有足够的对话量，研究人员需要定义一个合理的分类标签集，以确保分类任务的有效性。最后，数据预处理过程中，如何有效去除停用词、进行词性标注以及提取对话主题，也是构建高质量语料库的关键挑战。

常用场景

经典使用场景

TBBTCorpus数据集的经典使用场景主要集中在自然语言处理和对话系统领域。该数据集通过详细记录《生活大爆炸》剧集中每个场景的对话内容，为研究者提供了丰富的对话数据资源。研究者可以利用这些对话数据进行对话生成、角色识别、情感分析等任务。此外，由于数据集包含了每个对话的上下文信息，如场景描述、角色参与情况等，它也适用于多轮对话建模和角色行为分析。

衍生相关工作

基于TBBTCorpus数据集，研究者已开展了多项相关工作。例如，有研究利用该数据集进行角色识别和对话生成模型的训练，取得了显著的成果。此外，还有研究探讨了如何利用数据集中的情感信息进行情感分析和情感驱动的对话生成。这些工作不仅丰富了自然语言处理的研究内容，也为对话系统的实际应用提供了新的思路。

数据集最近研究