spawn99/CornellMovieDialogCorpus

Name: spawn99/CornellMovieDialogCorpus
Creator: spawn99
Published: 2023-12-29 20:12:38
License: 暂无描述

Hugging Face2023-12-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/spawn99/CornellMovieDialogCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从原始电影脚本中提取的元数据丰富的虚构对话集合。数据集包括10,292对电影角色之间的220,579次对话交换，涉及617部电影中的9,035个角色，总共有304,713条对话。数据集还包括电影元数据（如类型、发行年份、IMDB评分、IMDB投票数）和角色元数据（如性别、片尾字幕位置）。

The Cornell Movie-Dialogs Corpus is a metadata-rich collection of fictional conversations extracted from raw movie scripts. This dataset contains 220,579 conversational exchanges involving 9,035 characters from 617 movies, totaling 304,713 utterances. It also includes metadata for both movies and characters, such as genres, release year, IMDB rating and votes for movies, and gender and position in credits for characters.

提供机构：

spawn99

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: MIT
数据集大小: 100K<n<1M
标签:
- movie dialog
- cornell
- conversation
- dialog

数据集特征

特征:
- lineID: 字符串
- characterID: 字符串
- movieID: 字符串
- characterName: 字符串
- utterance: 字符串

数据集分割

分割:
- movie_lines:
  - 字节数: 29475700
  - 样本数: 304713

下载和数据集大小

下载大小: 14593268
数据集大小: 29475700

配置

配置名称: default
- 数据文件:
  - split: movie_lines
  - path: data/movie_lines-*

数据集描述

简要描述:
- 包含从原始电影剧本中提取的虚构对话的元数据丰富的集合。
- 220,579个对话交换，涉及10,292对电影角色。
- 涉及9,035个角色，来自617部电影。
- 总共304,713个话语。
- 包含电影元数据：
  - 类型
  - 发行年份
  - IMDB评分
  - IMDB投票数
  - IMDB评分
- 包含角色元数据：
  - 性别（3,774个角色）
  - 电影片尾字幕中的位置（3,321个角色）

文件描述

movie_titles_metadata.txt:
- 包含每个电影标题的信息。
- 字段:
  - movieID
  - 电影标题
  - 电影年份
  - IMDB评分
  - IMDB投票数
  - 类型（格式为[genre1,genre2,…,genreN]）
movie_characters_metadata.txt:
- 包含每个电影角色的信息。
- 字段:
  - characterID
  - 角色名称
  - movieID
  - 电影标题
  - 性别（"?"表示未标注的情况）
  - 片尾字幕中的位置（"?"表示未标注的情况）
movie_lines.txt:
- 包含每个话语的实际文本。
- 字段:
  - lineID
  - characterID（谁说的话）
  - movieID
  - 角色名称
  - 话语文本
movie_conversations.txt:
- 对话的结构。
- 字段:
  - 参与对话的第一个角色的characterID
  - 参与对话的第二个角色的characterID
  - 对话发生的电影的movieID
  - 按时间顺序排列的对话话语列表：[lineID1,lineID2,…,lineIDN]
  - 需要与movie_lines.txt匹配以重建实际内容
raw_script_urls.txt:
- 从中检索原始源的URL。

收集过程详情

从公开可用的原始电影剧本开始（来源在raw_script_urls.txt中得到确认）。
为了收集研究所需的元数据并区分同一电影的两个剧本版本，自动将每个剧本与IMDB（互联网电影数据库）中的条目匹配。
进行了一些手动校正。
当IMDB中找到多个同名电影时，匹配最受欢迎的标题（收到最多IMDB投票的标题）。
丢弃了无法匹配或IMDB投票少于5的电影后，剩下617个唯一标题，包含类型、发行年份、IMDB评分和投票数以及演员分布的元数据。
然后识别互动的角色对，并使用简单的数据处理启发式方法自动分离他们的对话。
丢弃了交换少于5个对话交换的对后，剩下10,292对，交换了220,579个对话交换（304,713个话语）。
自动将9,035个涉及角色的名称与演员分布列表匹配后，使用每个解释演员的性别推断3,321个电影角色的虚构性别（通过手动注释将性别角色数量增加到3,774个）。
类似地，收集了3,321个角色的片尾字幕位置作为其地位的代理。

联系

请将任何问题发送至: cristian@cs.cornell.edu (Cristian Danescu-Niculescu-Mizil)

搜集汇总

数据集介绍

构建方式

该数据集的构建始于公开可用的电影剧本，通过自动匹配每个剧本与IMDB数据库中的条目，确保了电影元数据的完整性。在匹配过程中，优先选择获得最多IMDB投票的电影版本，并手动修正部分匹配错误。随后，通过数据处理技术识别并分离出电影角色间的对话，最终筛选出至少进行过五次对话的角色对，形成了包含220,579次对话和304,713条发言的对话集。此外，通过演员的性别信息推断部分角色的性别，并手动标注了更多角色的性别和在电影中的地位信息。

使用方法

该数据集适用于多种自然语言处理任务，如对话系统开发、角色互动分析和电影语言风格研究。用户可以通过提供的文件结构，轻松访问和分析对话内容及其相关元数据。例如，研究者可以利用'movie_lines.txt'文件中的对话内容进行语言模型训练，或通过'movie_conversations.txt'文件研究角色间的对话结构。此外，电影和角色的元数据文件为更深层次的分析提供了丰富的背景信息。

背景与挑战

背景概述

Cornell Movie-Dialogs Corpus是由康奈尔大学的Cristian Danescu-Niculescu-Mizil和Lillian Lee于2011年创建的，旨在研究对话中语言风格的协调性。该数据集包含了从617部电影中提取的220,579个对话交换，涉及9,035个角色和304,713条对话。数据集不仅提供了对话内容，还包含了丰富的元数据，如电影的类型、发行年份、IMDB评分等，以及角色的性别和在电影中的地位。这一数据集为研究对话系统、自然语言处理和语言风格协调提供了宝贵的资源，对相关领域的研究产生了深远的影响。

当前挑战

Cornell Movie-Dialogs Corpus在构建过程中面临了多个挑战。首先，从原始电影剧本中提取对话并匹配到IMDB数据库中的电影条目需要复杂的自动化处理和手动校正。其次，确定角色性别和地位的过程涉及大量的数据处理和人工标注，增加了数据集构建的复杂性。此外，如何确保对话内容的多样性和代表性，以及如何处理对话中的噪声和歧义，也是该数据集面临的挑战。这些挑战不仅影响了数据集的质量，也对后续的研究提出了更高的要求。

常用场景

经典使用场景

Cornell Movie-Dialogs Corpus 数据集的经典使用场景主要集中在自然语言处理领域，特别是在对话系统、情感分析和语言风格协调研究中。该数据集提供了丰富的电影对话内容，涵盖了超过30万条对话，涉及9,035个角色和617部电影。研究者可以利用这些对话数据进行对话生成模型的训练，探索角色间的语言交互模式，以及分析不同角色在对话中的语言风格变化。

解决学术问题

该数据集解决了自然语言处理领域中关于对话生成、情感分析和语言风格协调的多个学术问题。通过提供结构化的对话数据，研究者能够深入研究角色间的语言交互模式，分析对话中的情感变化，以及探讨如何通过对话数据模拟和预测语言风格的变化。这些研究不仅推动了对话系统的发展，还为理解人类对话中的语言协调机制提供了重要依据。

实际应用

在实际应用中，Cornell Movie-Dialogs Corpus 数据集被广泛用于开发和优化对话系统、聊天机器人以及情感分析工具。例如，在电影剧本分析中，该数据集可以帮助识别和预测角色间的对话模式，从而提升剧本创作的效率和质量。此外，该数据集还可用于训练智能客服系统，使其能够更好地理解和回应用户的情感需求。

数据集最近研究