shanya/crd3
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shanya/crd3
下载链接
链接失效反馈官方服务:
资源简介:
CRD3数据集,又称关键角色龙与地下城数据集,包含了159集Critical Role节目的转录对话,总计398,682个对话回合。该数据集还包含了来自Fandom wiki的相应摘要。数据集语言独特,完全通过玩家合作和口头互动生成叙述。每个对话包含大量回合、多个抽象摘要以及与先前对话的语义联系。该数据集适用于摘要、文本生成和填充掩码等任务,特别适用于对话建模。
提供机构:
shanya
原始信息汇总
数据集概述
数据集名称
- pretty_name: CRD3 (Critical Role Dungeons and Dragons Dataset)
语言和许可证
- language: en
- license: cc-by-sa-4.0
数据集来源和任务
- source_datasets: original
- task_categories: summarization, text-generation, fill-mask
- task_ids: dialogue-modeling
数据集大小
- size_categories: 10K<n<100K
数据集描述
数据集总结
- 内容: 包含159集Critical Role节目的文本对话,总计398,682个对话轮次,以及从Fandom wiki收集的相应摘要。
- 特点: 通过玩家协作和口头互动生成的叙事,每个对话包含大量轮次和多个摘要。
支持的任务和评估
- 任务: 抽象摘要
- 评估: 使用fast abstractive summarization-RL模型,ROUGE-L-F1得分为25.18。
语言
- 语言: 英语
数据集结构
数据实例
- 示例: 包含对话轮次、发言者名称和发言内容等。
数据字段
- 字段: chunk, chunk_id, turn_start, turn_end, alignment_score, turn_num, turns (包含names和utterances)
数据分割
- 分割: train (26,232), validation (3,470), test (4,541)
数据集创建
数据收集和标准化
- 来源: 从Critical Role节目收集,包含159集的转录文本。
- 摘要来源: 从Critical Role Fandom wiki收集。
语言生产者
- 生产者: Critical Role节目的演员。
许可证和引用信息
许可证
- 许可证: Creative Commons Attribution-ShareAlike 4.0 International License
引用信息
- 引用格式:
@inproceedings{ title = {Storytelling with Dialogue: A Critical Role Dungeons and Dragons Dataset}, author = {Rameshkumar, Revanth and Bailey, Peter}, year = {2020}, publisher = {Association for Computational Linguistics}, conference = {ACL} }



