microsoft/crd3

Name: microsoft/crd3
Creator: microsoft
Published: 2024-01-18 09:48:37
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/microsoft/crd3

下载链接

链接失效反馈

官方服务：

资源简介：

CRD3（Critical Role Dungeons and Dragons Dataset）数据集是从159集Critical Role节目中转录的文本对话，包含398,682个对话回合，并附有从Fandom wiki收集的摘要。Critical Role是一个无剧本的直播节目，固定的一群人玩《龙与地下城》这款开放式的角色扮演游戏。数据集在语言学上具有独特性，因为叙述完全通过玩家的协作和口头互动生成。每个对话都有大量的回合、多个不同详细程度的摘要，并与之前的对话有语义上的联系。数据集主要用于摘要生成、文本生成和对话建模等任务。

提供机构：

microsoft

原始信息汇总

数据集概述

数据集名称

名称: CRD3 (Critical Role Dungeons and Dragons Dataset)

语言

语言: 英语

许可证

许可证: cc-by-sa-4.0

多语言性

多语言性: 单语种

源数据集

源数据集: 原始数据

任务类别

任务类别:
- 摘要生成
- 文本生成
- 填充掩码

任务ID

任务ID: 对话建模

数据集大小

数据集大小: 10K<n<100K

数据集特征

特征:
- chunk: 字符串类型
- chunk_id: 整数类型 (int32)
- turn_start: 整数类型 (int32)
- turn_end: 整数类型 (int32)
- alignment_score: 浮点数类型 (float32)
- turns: 字典类型，包含以下序列:
  - names: 字符串序列
  - utterances: 字符串序列
  - number: 整数类型 (int32)

数据分割

分割:
- train: 38,969 实例，236605152 字节
- test: 7,500 实例，40269203 字节
- validation: 6,327 实例，41543528 字节

下载和数据集大小

下载大小: 117519820 字节
数据集大小: 318417883 字节

数据集创建

源数据:
- 来自 Critical Role 节目的159集，转录为文本对话。
- 摘要来自 Critical Role Fandom wiki。

许可证信息

许可证: 创意共享 Attribution-ShareAlike 4.0 国际 (cc-by-sa-4.0)

引用信息

bibtex @inproceedings{ title = {Storytelling with Dialogue: A Critical Role Dungeons and Dragons Dataset}, author = {Rameshkumar, Revanth and Bailey, Peter}, year = {2020}, publisher = {Association for Computational Linguistics}, conference = {ACL} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，对话理解与抽象摘要生成是极具挑战性的研究方向。CRD3数据集的构建源于对长篇幅、叙事性对话语料的迫切需求。该数据集源自《Critical Role》这一无剧本直播节目，其中固定参与者进行《龙与地下城》角色扮演游戏。通过采集159期节目的转录文本，共计包含398,682轮对话，并辅以从Fandom维基获取的对应抽象摘要。数据构建过程中，研究团队手动校正了说话人名称拼写不一致等问题，确保了语料的规范性与一致性。

使用方法

CRD3数据集主要应用于抽象摘要生成任务，为模型训练与评估提供了现实场景中的长对话语料。使用者可依据对话轮次与摘要之间的对应关系，构建端到端的摘要生成模型。数据集中提供的对齐分数可用于评估摘要与对话内容的语义关联强度，辅助模型优化。此外，该数据集亦支持对话建模与掩码填充等自然语言处理任务，研究者可通过调整输入输出结构，探索多轮对话的语义理解与生成机制。

背景与挑战

背景概述

CRD3数据集由微软研究团队于2020年发布，旨在为对话理解与抽象摘要生成领域提供高质量资源。该数据集源自热门角色扮演游戏《龙与地下城》的即兴直播节目《Critical Role》，收录了159集节目的文本对话与对应摘要，总计包含近40万轮次。其核心研究问题聚焦于长篇幅、叙事性对话的语义捕捉与内容精炼，为自然语言处理中的对话建模与摘要任务提供了独特且丰富的语料支持，显著推动了叙事生成与多轮对话分析领域的发展。

当前挑战

CRD3数据集所应对的领域挑战在于长对话的抽象摘要生成，其对话内容具有高度开放性、多角色协作及叙事连贯性，传统摘要模型在语义保持、内容选择与重写方面面临严峻考验。在构建过程中，挑战主要源于数据采集与处理：原始语音转录需转化为文本对话，涉及说话人身份识别与拼写不一致性的人工校正；同时，摘要部分依赖众包维基内容，需确保其与对话片段的语义对齐，这一过程通过人工评分实现，但依然存在信息密度与准确性的平衡难题。

常用场景

经典使用场景

在自然语言处理领域，对话理解与抽象摘要生成是极具挑战性的研究方向。CRD3数据集以其独特的叙事对话结构，为研究者提供了探索长篇幅、多轮次对话摘要任务的理想平台。该数据集收录了《Critical Role》节目中未经脚本的即兴角色扮演对话，这些对话通过玩家协作自然生成，蕴含丰富的叙事逻辑与语义关联。经典使用场景聚焦于训练模型从复杂对话流中提取关键情节，生成连贯且信息密集的摘要，尤其适用于评估模型在开放式叙事语境下的语义捕捉与内容重构能力。

解决学术问题

该数据集有效应对了当前摘要生成模型在语义与语用学捕捉、内容选择、文本重写及评估机制等方面的局限性。通过提供大量带有不同粒度人工摘要的对话样本，CRD3助力学术界深入探究长对话叙事中的信息压缩与语义保持问题。其意义在于推动了对话摘要领域从短文本向长篇幅、多交互场景的范式转移，为构建更健壮、更具上下文感知能力的自然语言生成模型奠定了数据基础，促进了计算语言学与叙事学研究的交叉融合。

实际应用

在实际应用层面，CRD3数据集为开发智能对话系统与叙事生成工具提供了重要支撑。基于该数据集训练的模型可应用于自动生成游戏剧情摘要、辅助内容创作者快速梳理直播或会议记录，乃至赋能交互式娱乐产品中的动态叙事引擎。这些应用不仅提升了信息处理效率，也为个性化内容推荐、沉浸式虚拟体验设计等领域注入了新的技术活力，展现了从学术研究到产业落地的转化潜力。

数据集最近研究