wise-east/spolin
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wise-east/spolin
下载链接
链接失效反馈官方服务:
资源简介:
SPOLIN数据集是一个包含超过68,000对Yes, and类型对话的集合,这些对话从Spontaneanation播客、Cornell Movie-Dialogs Corpus和SubTle corpus中提取。数据集主要用于训练模型进行文本分类和文本生成任务,特别是对话建模和文本评分。数据集提供两个版本,一个是用于ACL论文实验的核心数据集,另一个是后续迭代数据增强后的扩展版本。
SPOLIN数据集是一个包含超过68,000对Yes, and类型对话的集合,这些对话从Spontaneanation播客、Cornell Movie-Dialogs Corpus和SubTle corpus中提取。数据集主要用于训练模型进行文本分类和文本生成任务,特别是对话建模和文本评分。数据集提供两个版本,一个是用于ACL论文实验的核心数据集,另一个是后续迭代数据增强后的扩展版本。
提供机构:
wise-east
原始信息汇总
数据集概述
数据集名称
- SPOLIN
数据集摘要
- SPOLIN 是一个包含超过68,000个“Yes, and”类型对话对的语料库,这些对话对来自Spontaneanation播客、Cornell Movie-Dialogs Corpus和SubTle corpus。
数据集版本
- 核心数据集:用于论文实验的数据集,包含来自Spontaneanation和Cornell Movie-Dialogs Corpus的“Yes, and”和非“Yes, and”对话。
- 扩展版本:在提交论文后,通过迭代数据增强过程,从Cornell Movie-Dialogs Corpus和SubTle corpus中提取的对话。
数据集结构
- 字段:
id: 唯一标识符prompt: 对话对中的第一条发言response: 对话对中的第二条发言label: 标签(yesand = 1, non-yesand = 0)source: 样本来源split: 样本所属的训练集或验证集
数据集统计
- spolin-train.csv:
- 总计:67,188个“Yes, and”对话,43,409个非“Yes, and”对话
- spolin-train-acl.csv:
- 总计:25,435个“Yes, and”对话,23,438个非“Yes, and”对话
- spolin-valid.csv:
- 总计:1,000个“Yes, and”对话,1,000个非“Yes, and”对话
许可证
- cc-by-nc-4.0:此工作根据Creative Commons Attribution-NonCommercial 4.0 International License授权。



