five

Englishman2022/prosocial-dialog-filtered

收藏
Hugging Face2023-05-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Englishman2022/prosocial-dialog-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
ProsocialDialogFiltered是ProsocialDialog数据集的过滤版本,旨在通过过滤掉特定标签的行来减少语言模型对用户的拒绝,以创建更开放和更好的模型。该数据集包含多个过滤后的版本,如train_no_casual、train_no_possibly、train_no_probably和最终的train数据集。ProsocialDialog是一个大规模的多轮英语对话数据集,用于教导对话代理如何回应有问题的内容。数据集可能的缺点包括一些结束消息被截断的问题。

ProsocialDialogFiltered是ProsocialDialog数据集的过滤版本,旨在通过过滤掉特定标签的行来减少语言模型对用户的拒绝,以创建更开放和更好的模型。该数据集包含多个过滤后的版本,如train_no_casual、train_no_possibly、train_no_probably和最终的train数据集。ProsocialDialog是一个大规模的多轮英语对话数据集,用于教导对话代理如何回应有问题的内容。数据集可能的缺点包括一些结束消息被截断的问题。
提供机构:
Englishman2022
原始信息汇总

数据集概述

基本信息

  • 名称: ProsocialDialogFiltered
  • 许可证: cc-by-4.0
  • 语言: 英语
  • 创建方式: 众包 + 机器生成
  • 多语言性: 单语种
  • 大小: 10K<n<100K

任务类别

  • 对话生成
  • 多类分类

数据集描述

ProsocialDialogFiltered 是 ProsocialDialog 数据集的一个过滤版本,旨在减少语言模型对用户的拒绝,以创建更好的、更开放的模型。

数据集版本

  • train_no_casual: 过滤掉标签为 "casual" 的行。
  • train_no_possibly: 过滤掉标签为 "possibly needs caution" 的行。
  • train_no_probably: 过滤掉标签为 "probably needs caution" 的行,仅保留 "needs caution" 和 "needs intervention"。
  • 最终训练集: 过滤掉包含多个短语如 "You should not" 和 "you should refrain from" 的行。

数据集用途

用于教授对话代理如何响应问题内容,是一个大规模的多轮英语对话数据集。

注意事项

  • 部分结束消息被截断,仅在依赖 episode_done 指示器时需关注。

引用信息

@inproceedings{kim2022prosocialdialog, title={ProsocialDialog: A Prosocial Backbone for Conversational Agents}, author={Hyunwoo Kim and Youngjae Yu and Liwei Jiang and Ximing Lu and Daniel Khashabi and Gunhee Kim and Yejin Choi and Maarten Sap}, booktitle={EMNLP}, year=2022 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作