Englishman2022/prosocial-dialog-filtered
收藏Hugging Face2023-05-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Englishman2022/prosocial-dialog-filtered
下载链接
链接失效反馈官方服务:
资源简介:
ProsocialDialogFiltered是ProsocialDialog数据集的过滤版本,旨在通过过滤掉特定标签的行来减少语言模型对用户的拒绝,以创建更开放和更好的模型。该数据集包含多个过滤后的版本,如train_no_casual、train_no_possibly、train_no_probably和最终的train数据集。ProsocialDialog是一个大规模的多轮英语对话数据集,用于教导对话代理如何回应有问题的内容。数据集可能的缺点包括一些结束消息被截断的问题。
ProsocialDialogFiltered是ProsocialDialog数据集的过滤版本,旨在通过过滤掉特定标签的行来减少语言模型对用户的拒绝,以创建更开放和更好的模型。该数据集包含多个过滤后的版本,如train_no_casual、train_no_possibly、train_no_probably和最终的train数据集。ProsocialDialog是一个大规模的多轮英语对话数据集,用于教导对话代理如何回应有问题的内容。数据集可能的缺点包括一些结束消息被截断的问题。
提供机构:
Englishman2022
原始信息汇总
数据集概述
基本信息
- 名称: ProsocialDialogFiltered
- 许可证: cc-by-4.0
- 语言: 英语
- 创建方式: 众包 + 机器生成
- 多语言性: 单语种
- 大小: 10K<n<100K
任务类别
- 对话生成
- 多类分类
数据集描述
ProsocialDialogFiltered 是 ProsocialDialog 数据集的一个过滤版本,旨在减少语言模型对用户的拒绝,以创建更好的、更开放的模型。
数据集版本
- train_no_casual: 过滤掉标签为 "casual" 的行。
- train_no_possibly: 过滤掉标签为 "possibly needs caution" 的行。
- train_no_probably: 过滤掉标签为 "probably needs caution" 的行,仅保留 "needs caution" 和 "needs intervention"。
- 最终训练集: 过滤掉包含多个短语如 "You should not" 和 "you should refrain from" 的行。
数据集用途
用于教授对话代理如何响应问题内容,是一个大规模的多轮英语对话数据集。
注意事项
- 部分结束消息被截断,仅在依赖 episode_done 指示器时需关注。
引用信息
@inproceedings{kim2022prosocialdialog, title={ProsocialDialog: A Prosocial Backbone for Conversational Agents}, author={Hyunwoo Kim and Youngjae Yu and Liwei Jiang and Ximing Lu and Daniel Khashabi and Gunhee Kim and Yejin Choi and Maarten Sap}, booktitle={EMNLP}, year=2022 }



