CRSArena-Dial

Name: CRSArena-Dial
Creator: 斯塔万格大学
Published: 2024-12-14 03:16:38
License: 暂无描述

arXiv2024-12-14 更新2024-12-18 收录

下载链接：

https://github.com/iai-group/crsarena-dial

下载链接

链接失效反馈

官方服务：

资源简介：

CRSArena-Dial 是由斯塔万格大学和拉德堡德大学联合创建的对话推荐系统（CRS）数据集，包含474个真实用户与CRS之间的对话及其对应的反馈。数据集通过CRS Arena平台在开放和封闭的众包环境中收集，涵盖了多种CRS系统，旨在评估CRS的交互性和用户满意度。数据集的创建过程包括用户与CRS的多次交互，并记录了用户的满意度反馈。该数据集主要应用于对话推荐系统的评估和研究，旨在解决现有CRS评估方法中忽视交互性和用户真实反馈的问题。

CRSArena-Dial is a conversational recommendation system (CRS) dataset jointly developed by the University of Stavanger and Radboud University. It includes 474 real conversations between users and CRS systems, paired with corresponding user feedback. The dataset was collected through the CRS Arena platform across both open and closed crowdsourcing settings, covering diverse CRS systems, with the core goal of evaluating the interactivity and user satisfaction of CRS. The construction process of the dataset involves multiple rounds of interactions between users and CRS systems, and documents users' satisfaction-related feedback. This dataset is primarily utilized for the evaluation and research of conversational recommendation systems, aiming to address the shortcomings of existing CRS evaluation methods that neglect interactivity and real user feedback.

提供机构：

斯塔万格大学

创建时间：

2024-12-14

原始信息汇总

CRSArena-Dial 数据集

CRSArena-Dial 是一个包含用户与对话推荐系统（CRS）之间对话及通过 CRS Arena 收集的反馈的数据集。反馈涉及用户对 CRS 的满意度以及通过并排比较的 CRS 之间的成对比较。数据收集在两种众包设置中进行：开放和封闭。在开放设置中，所有用户都可以访问系统，而在封闭设置中，访问仅限于选定的众包工作者（Prolific）。CRSArena-Dial 是一个用于评估 CRS 和研究用户与 CRS 交互行为的资源。

数据

数据集存储在 data 目录中，包含以下文件：

crs_arena_dial_open.json: 从开放众包设置中收集的对话。
crs_arena_dial_closed.json: 从封闭众包设置中收集的对话。
votes_open.csv: 从开放众包设置中收集的投票和反馈。
votes_closed.csv: 从封闭众包设置中收集的投票和反馈。

数据分析在 DataAnalysis.md 中提供。

对话

CRSArena-Dial 包含 474 个用户与九个对话推荐系统之间的对话。

对话格式

对话以 JSON 格式保存。每个对话表示为一个字典，包含以下键：

conversation ID: 对话的唯一标识符，格式为 {CRS 名称}_{用户 ID}。
agent: CRS 信息。
user: 用户信息。
conversation: 用户与 CRS 之间的交互内容。
- 每个交互内容表示为一个字典，包含以下键：
  - participant: 说话者，即 USER 或 AGENT。
  - utterance: 交互内容的文本。
  - utterance ID: 交互内容的唯一标识符，格式为 {conversation ID}_{交互内容编号}。
metadata: 对话的附加信息，包括用户对 CRS 体验的情感（如满意度或挫败感）。

对话示例：

json { "conversation ID": "barcor_redial_03368a16-93bd-4b21-885d-b9a21e3498ba", "agent": { "id": "barcor_redial", "type": "AGENT" }, "user": { "id": "03368a16-93bd-4b21-885d-b9a21e3498ba", "type": "USER" }, "conversation": [ { "participant": "USER", "utterance": "Recommend me r movi in the science fiction genre ", "utterance ID": "barcor_redial-03368a16-93bd-4b21-885d-b9a21e3498ba_0" }, { "participant": "AGENT", "utterance": "Have you seen Blade Runner 2049 (2017)?", "utterance ID": "barcor_redial-03368a16-93bd-4b21-885d-b9a21e3498ba_1" }, ... ], "metadata": { "sentiment": "frustrated" } }

投票和反馈

CRSArena-Dial 包含从 187 次 CRS 成对比较中收集的投票和反馈。数据以 CSV 格式存储，包含以下列：

session_id: 会话标识符（时间戳）。
user_id: 用户标识符。
crs1: CRS 1 的名称。
crs2: CRS 2 的名称。
vote: 用户选择的 CRS 名称，或如果用户无法决定则为 "tie"。
feedback: 用户提供的可选反馈。

在 tool 目录中提供了一个脚本，用于将投票和反馈信息集成到对话中。使用脚本如下：

sh python tool/merge.py --votes {VOTES_FILE} --dialogue {DIALOGUES_FILE}

该脚本生成一个 JSON 文件，对话条目中包含一个额外的键 vote_result，用于表示在投票文件中对应的投票结果。文件保存在 data/merged 目录中。

搜集汇总

数据集介绍

构建方式

CRSArena-Dial数据集通过CRS Arena平台构建，该平台旨在通过人类反馈对对话推荐系统（CRS）进行可扩展的基准测试。平台展示了匿名CRS之间的成对对战，用户在交互后选择胜者或平局。CRS Arena收集对话和用户反馈，为CRS的可靠评估和排名提供了基础。实验在开放和封闭的众包平台上进行，确认了两种设置下CRS排名和对话特征的高度相关性。最终，CRSArena-Dial数据集包含了474个对话及其相应的用户反馈，并基于Elo评分系统对系统进行了初步排名。

特点

CRSArena-Dial数据集的独特之处在于它包含了CRS与真实用户之间的对话，而非传统的Wizard-of-Oz设置。数据集不仅包含对话内容，还包含用户对CRS的满意度反馈和成对比较结果。此外，数据集在开放和封闭的众包环境中收集，确保了对话特征和用户反馈的多样性和代表性。通过Elo评分系统，数据集还提供了CRS的初步排名，揭示了用户满意度与推荐质量之间的不一致性。

使用方法

CRSArena-Dial数据集可用于多种研究目的，包括CRS的评估、对话特征分析以及用户交互行为的研究。研究者可以通过分析对话内容和用户反馈，深入理解CRS的性能和用户满意度。此外，数据集的成对比较结果和Elo评分系统为CRS的排名提供了基础，有助于进一步优化和改进CRS的设计。数据集的开放性使得研究者能够基于真实用户反馈进行更全面的CRS评估，推动对话推荐系统领域的发展。

背景与挑战

背景概述

随着对话推荐系统（CRS）在个性化推荐领域的日益重要，传统的离线评估方法已难以全面反映其交互性和用户体验。为此，Nolwenn Bernard、Hideaki Joko、Faegheh Hasibi和Krisztian Balog于2025年推出了CRS Arena平台，旨在通过众包方式对CRS进行可扩展的基准测试。该平台通过匿名对话推荐系统的两两对决，收集用户反馈，从而为CRS的可靠评估和排名提供基础。CRS Arena不仅在开放和封闭的众包平台上进行了实验，还发布了包含474个对话及其用户反馈的CRSArena-Dial数据集，为研究CRS的性能和局限性提供了宝贵的资源。

当前挑战

CRSArena-Dial数据集的构建面临多重挑战。首先，对话推荐系统的评估需要考虑其交互性和用户体验，而现有评估方法往往过于依赖离线指标或特定场景的用户研究，难以全面反映系统的实际表现。其次，构建过程中，如何在众包环境中确保数据的质量和一致性是一个难题，尤其是在开放环境中，用户行为可能受到多种因素的影响。此外，数据集中的用户满意度普遍较低，表明现有CRS在理解和响应用户需求方面仍有显著不足，这为未来的研究提出了更高的要求。

常用场景

经典使用场景

CRSArena-Dial数据集的经典使用场景主要集中在对话推荐系统（CRS）的评估与基准测试。该数据集通过收集真实用户与多个CRS之间的对话及其反馈，提供了对CRS性能的全面评估。研究者可以利用这些对话数据进行系统的比较分析，评估不同CRS在推荐质量、用户满意度以及对话流畅性等方面的表现。此外，数据集还支持基于Elo评分系统的排名分析，帮助研究者更好地理解各CRS在实际交互中的相对优劣。

衍生相关工作

CRSArena-Dial数据集的发布催生了一系列相关研究工作。首先，基于该数据集的对话分析和用户反馈研究，推动了对CRS性能的深入理解。其次，研究者利用数据集中的对话数据，开发了新的评估框架和工具，如基于Elo评分的排名系统，进一步提升了CRS的评估效率。此外，数据集的开放性还激发了社区对对话推荐系统的广泛讨论和合作，促进了该领域的技术进步和标准化进程。

数据集最近研究