CoDrawiCR (v2)

Name: CoDrawiCR (v2)
Creator: 波茨坦大学语言学系计算语言学部
Published: 2023-07-26 16:54:03
License: 暂无描述

arXiv2023-07-26 更新2024-06-21 收录

下载链接：

https://osf.io/gcjhz/

下载链接

链接失效反馈

官方服务：

资源简介：

CoDrawiCR (v2) 数据集是由德国波茨坦大学语言学系计算语言学部的研究团队创建的，专注于自然发生的指令澄清请求（iCRs）。该数据集包含8765条对话，用于模型和评估对话代理的修复能力。数据集通过精细的注释，包括情绪类别和每个话语对应的物体和与动作相关的属性，增强了CoDraw-iCR (v1)。CoDrawiCR (v2) 数据集的应用领域主要集中在解决指令跟随交互中的沟通问题，特别是在指令不明确或未详细指定时，通过澄清请求来获取必要信息。

The CoDrawiCR (v2) dataset was developed by a research team from the Department of Computational Linguistics, Faculty of Linguistics, University of Potsdam, Germany, and focuses on naturally occurring instruction clarification requests (iCRs). This dataset contains 8,765 dialogues, designed for modeling and evaluating the repair capabilities of conversational agents. Enhanced upon CoDraw-iCR (v1), the dataset is enriched with fine-grained annotations covering emotion categories, as well as object- and action-related attributes corresponding to each utterance. The primary application scope of CoDrawiCR (v2) lies in addressing communication issues in instruction-following interactions, specifically when instructions are ambiguous or under-specified, and acquiring essential information via clarification requests.

提供机构：

波茨坦大学语言学系计算语言学部

创建时间：

2023-06-04

搜集汇总

数据集介绍

构建方式

在指令跟随对话研究领域，CoDraw-iCR (v2) 数据集的构建基于CoDraw协作绘图对话游戏中的自然交互语料。该数据集通过对原始CoDraw数据中已识别的指令澄清请求进行细粒度标注扩展而来。标注过程采用内容驱动的框架，由经过专业训练的标注员在图形界面中逐一分析每个iCR语句，依据预定义的分类体系记录其形式特征与内容要素。标注体系涵盖语气类别、对象提及数量、具体剪贴画标识符以及六类动作相关属性，如位置、大小、方向等，所有标注均以对话游戏中的元素为根基，确保了标注信息与任务上下文紧密关联。

使用方法

该数据集主要服务于对话系统与自然语言处理领域的研究，尤其适用于指令跟随场景中澄清请求的生成与理解任务。研究者可利用其细粒度标注训练模型学习何时发起澄清、如何确定澄清内容以及选择恰当的表达形式。具体而言，形式与内容标注可用于构建多任务学习框架或提供生成过程的显式监督信号；对象与属性标注支持基于内容的评估指标，超越表面文本相似度，衡量生成请求的适切性。数据集以结构化格式提供，便于分割为训练、验证与测试集，用于建模iCR检测、响应生成及端到端对话代理的修复能力评估。

背景与挑战

背景概述

CoDraw-iCR (v2)数据集由波茨坦大学与德国人工智能研究中心的研究团队于2023年构建，旨在深化对指令澄清请求（iCRs）的细粒度标注研究。该数据集基于CoDraw协作绘图对话游戏，聚焦于解决指令跟随交互中因歧义或信息不足引发的沟通问题。通过标注iCRs的形式、内容及其与游戏对象和动作的关联，该数据集为对话代理的修复能力建模与评估提供了关键资源，推动了自然语言处理领域对交互式沟通机制的理解与应用。

当前挑战

在指令跟随领域，iCRs的生成面临多重挑战：模型需精准识别指令歧义时机，并生成内容恰当、形式自然的澄清请求，同时处理对象属性（如位置、大小）与关系等复杂语义信息。数据构建过程中，标注者需在缺乏场景视觉信息的条件下，仅依据对话文本准确映射iCRs到游戏对象与动作，这易引发对象误判；此外，数据规模与标注一致性间的平衡、多类别iCRs（如混合语气或复合属性）的细粒度分割，以及长距离上下文依赖的标注缺失，均为数据质量与模型泛化能力带来显著挑战。

常用场景

经典使用场景

在指令跟随式对话系统中，CoDraw-iCR (v2) 数据集被广泛应用于建模和评估对话代理的澄清请求生成能力。该数据集源于CoDraw协作绘图游戏，其中指令接收者在面对模糊或未充分指定的指令时，会自发产生澄清请求以确认操作细节。研究者利用这一场景，训练模型识别何时需要发起澄清、如何基于游戏中的对象和动作属性构建恰当的提问形式，从而提升对话系统在复杂交互中的鲁棒性和自然度。

解决学术问题

CoDraw-iCR (v2) 解决了指令跟随交互中澄清请求的细粒度建模问题。传统研究多集中于澄清请求的识别与分类，而该数据集通过标注语气、对象关联及动作属性等维度，为生成内容接地气的澄清请求提供了结构化资源。它帮助学术界探索如何在多模态任务中处理指令的歧义性，推动对话系统从被动响应向主动澄清的演进，对自然语言理解与生成领域具有重要理论意义。

实际应用

在实际应用中，CoDraw-iCR (v2) 为开发智能辅助系统和人机协作平台提供了关键数据支持。例如，在虚拟绘图助手、教育机器人或工业流程指导系统中，模型可借鉴该数据集的标注模式，实时生成针对对象位置、大小或关系的澄清问题，从而减少误解并提高任务完成效率。这种能力尤其适用于需要高精度指令执行的场景，如医疗指导或远程操作界面。

数据集最近研究