henry12348/DiPlomat|对话理解数据集|语用推理数据集

hugging_face2023-11-13 更新2024-06-15 收录

对话理解

语用推理

下载链接：

https://hf-mirror.com/datasets/henry12348/DiPlomat

下载链接

链接失效反馈

资源简介：

DiPlomat数据集旨在评估机器在实用推理和情境对话理解方面的能力，提供了一个统一的框架来理解一般实用推理。数据集包含4,177条数据，覆盖48,900个词汇，并包含6,494个人工标注的答案，涵盖5种推理类型。数据集包含两个主要任务：实用识别和推理（PIR）以及对话问答（CQA），并提供了用于零样本NLI的数据。数据集的创建过程包括自动选择、细粒度标注和人工精炼三个步骤。

提供机构：

henry12348

原始信息汇总

DiPlomat 数据集概述

数据集信息

配置名称：CQA

特征：
- text: 字符串序列
- speaker: 字符串序列
- gold_statement: 字符串
- questions: 字符串
- answer: 字符串
分割：
- train: 19805284 字节，15585 个样本
- validation: 1959148 字节，1559 个样本
- test: 2967746 字节，2338 个样本
下载大小：25566918 字节
数据集大小：24732178 字节

配置名称：NLI_with_context

特征：
- dialogue: 字符串序列
- speaker: 字符串序列
- human answer: 字符串
分割：
- train: 2977929 字节，2551 个样本
下载大小：3042193 字节
数据集大小：2977929 字节

配置名称：NLI_without_context

特征：
- text: 字符串
- hypothesis: 字符串
分割：
- train: 1095335 字节，2551 个样本
下载大小：1146864 字节
数据集大小：1095335 字节

配置名称：PIR_first

特征：
- text: 字符串序列
- speaker: 字符串序列
- correct_turn_number: 整数序列
分割：
- train: 3442927 字节，3341 个样本
- validation: 161433 字节，168 个样本
- test: 687605 字节，668 个样本
下载大小：4366468 字节
数据集大小：4291965 字节

配置名称：PIR_second

特征：
- text: 字符串序列
- speaker: 字符串序列
- correct_turn_number: 整数
- label: 整数
- choice: 字符串序列
分割：
- train: 9263111 字节，5188 个样本
- validation: 399924 字节，244 个样本
- test: 1890798 字节，1062 个样本
下载大小：11740508 字节
数据集大小：11553833 字节

数据集详情

语言：英语
许可证：CC BY-NC-SA 4.0
数据集大小：4,177 个样本
词汇量：48,900 个单词
人工标注答案数量：6,494 个
人工标注答案词汇量：20,000 个单词
涵盖的推理类型：5 种

数据集结构

PIR_first: 实用识别与推理子任务1
PIR_second: 实用识别与推理子任务2
CQA: 对话问答
NLI_with_context: 零样本NLI（带上下文）
NLI_without_context: 零样本NLI（无上下文）

数据集创建

源数据

来源：INTERVIEW 数据集（由 Majumder 等人收集）

标注过程

步骤I：自动选择

使用算法和模型进行初步筛选

步骤II：细粒度标注

利用 Amazon Mechanical Turk 进行详细标注
标注者需选择所有字面意义与意图意义不符的对话轮次，并提供置信度和理由

步骤III：人工精炼

将先前收集的人工标注理由转化为选择题
引入干扰选项以减少粗心标注者的影响

引用

@inproceedings{li2023diplomat, title={DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning}, author={Hengli Li and Song-Chun Zhu and Zilong Zheng}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2023} }

数据集卡片联系

邮箱：lihengli@stu.pku.edu.cn

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集，包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面，平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建，扩展至包含ID #6,857,737的图像，增加了超过180万张新图像，总大小约为8TB。图像以原始格式提供，分为1000个子目录，使用图像ID的模1000进行分桶，以避免文件系统性能问题。

hugging_face 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。