five

shanya/crd3

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shanya/crd3
下载链接
链接失效反馈
官方服务:
资源简介:
CRD3数据集,又称关键角色龙与地下城数据集,包含了159集Critical Role节目的转录对话,总计398,682个对话回合。该数据集还包含了来自Fandom wiki的相应摘要。数据集语言独特,完全通过玩家合作和口头互动生成叙述。每个对话包含大量回合、多个抽象摘要以及与先前对话的语义联系。该数据集适用于摘要、文本生成和填充掩码等任务,特别适用于对话建模。
提供机构:
shanya
原始信息汇总

数据集概述

数据集名称

  • pretty_name: CRD3 (Critical Role Dungeons and Dragons Dataset)

语言和许可证

  • language: en
  • license: cc-by-sa-4.0

数据集来源和任务

  • source_datasets: original
  • task_categories: summarization, text-generation, fill-mask
  • task_ids: dialogue-modeling

数据集大小

  • size_categories: 10K<n<100K

数据集描述

数据集总结

  • 内容: 包含159集Critical Role节目的文本对话,总计398,682个对话轮次,以及从Fandom wiki收集的相应摘要。
  • 特点: 通过玩家协作和口头互动生成的叙事,每个对话包含大量轮次和多个摘要。

支持的任务和评估

语言

  • 语言: 英语

数据集结构

数据实例

  • 示例: 包含对话轮次、发言者名称和发言内容等。

数据字段

  • 字段: chunk, chunk_id, turn_start, turn_end, alignment_score, turn_num, turns (包含names和utterances)

数据分割

  • 分割: train (26,232), validation (3,470), test (4,541)

数据集创建

数据收集和标准化

  • 来源: 从Critical Role节目收集,包含159集的转录文本。
  • 摘要来源: 从Critical Role Fandom wiki收集。

语言生产者

  • 生产者: Critical Role节目的演员。

许可证和引用信息

许可证

  • 许可证: Creative Commons Attribution-ShareAlike 4.0 International License

引用信息

  • 引用格式:

@inproceedings{ title = {Storytelling with Dialogue: A Critical Role Dungeons and Dragons Dataset}, author = {Rameshkumar, Revanth and Bailey, Peter}, year = {2020}, publisher = {Association for Computational Linguistics}, conference = {ACL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作