henry12348/DiPlomat|对话理解数据集|语用推理数据集
收藏DiPlomat 数据集概述
数据集信息
配置名称:CQA
- 特征:
text
: 字符串序列speaker
: 字符串序列gold_statement
: 字符串questions
: 字符串answer
: 字符串
- 分割:
train
: 19805284 字节,15585 个样本validation
: 1959148 字节,1559 个样本test
: 2967746 字节,2338 个样本
- 下载大小:25566918 字节
- 数据集大小:24732178 字节
配置名称:NLI_with_context
- 特征:
dialogue
: 字符串序列speaker
: 字符串序列human answer
: 字符串
- 分割:
train
: 2977929 字节,2551 个样本
- 下载大小:3042193 字节
- 数据集大小:2977929 字节
配置名称:NLI_without_context
- 特征:
text
: 字符串hypothesis
: 字符串
- 分割:
train
: 1095335 字节,2551 个样本
- 下载大小:1146864 字节
- 数据集大小:1095335 字节
配置名称:PIR_first
- 特征:
text
: 字符串序列speaker
: 字符串序列correct_turn_number
: 整数序列
- 分割:
train
: 3442927 字节,3341 个样本validation
: 161433 字节,168 个样本test
: 687605 字节,668 个样本
- 下载大小:4366468 字节
- 数据集大小:4291965 字节
配置名称:PIR_second
- 特征:
text
: 字符串序列speaker
: 字符串序列correct_turn_number
: 整数label
: 整数choice
: 字符串序列
- 分割:
train
: 9263111 字节,5188 个样本validation
: 399924 字节,244 个样本test
: 1890798 字节,1062 个样本
- 下载大小:11740508 字节
- 数据集大小:11553833 字节
数据集详情
- 语言:英语
- 许可证:CC BY-NC-SA 4.0
- 数据集大小:4,177 个样本
- 词汇量:48,900 个单词
- 人工标注答案数量:6,494 个
- 人工标注答案词汇量:20,000 个单词
- 涵盖的推理类型:5 种
数据集结构
- PIR_first: 实用识别与推理子任务1
- PIR_second: 实用识别与推理子任务2
- CQA: 对话问答
- NLI_with_context: 零样本NLI(带上下文)
- NLI_without_context: 零样本NLI(无上下文)
数据集创建
源数据
- 来源:INTERVIEW 数据集(由 Majumder 等人收集)
标注过程
步骤I:自动选择
- 使用算法和模型进行初步筛选
步骤II:细粒度标注
- 利用 Amazon Mechanical Turk 进行详细标注
- 标注者需选择所有字面意义与意图意义不符的对话轮次,并提供置信度和理由
步骤III:人工精炼
- 将先前收集的人工标注理由转化为选择题
- 引入干扰选项以减少粗心标注者的影响
引用
@inproceedings{li2023diplomat, title={DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning}, author={Hengli Li and Song-Chun Zhu and Zilong Zheng}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2023} }
数据集卡片联系
- 邮箱:lihengli@stu.pku.edu.cn
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录