CRSArena-Dial

Name: CRSArena-Dial
Creator: 斯塔万格大学
Published: 2024-12-14 03:16:38
License: 暂无描述

arXiv2024-12-14 更新2024-12-18 收录

下载链接：

https://github.com/iai-group/crsarena-dial

下载链接

链接失效反馈

官方服务：

资源简介：

CRSArena-Dial 是由斯塔万格大学和拉德堡德大学联合创建的对话推荐系统（CRS）数据集，包含474个真实用户与CRS之间的对话及其对应的反馈。数据集通过CRS Arena平台在开放和封闭的众包环境中收集，涵盖了多种CRS系统，旨在评估CRS的交互性和用户满意度。数据集的创建过程包括用户与CRS的多次交互，并记录了用户的满意度反馈。该数据集主要应用于对话推荐系统的评估和研究，旨在解决现有CRS评估方法中忽视交互性和用户真实反馈的问题。

提供机构：

斯塔万格大学

创建时间：

2024-12-14

原始信息汇总

CRSArena-Dial 数据集

CRSArena-Dial 是一个包含用户与对话推荐系统（CRS）之间对话及通过 CRS Arena 收集的反馈的数据集。反馈涉及用户对 CRS 的满意度以及通过并排比较的 CRS 之间的成对比较。数据收集在两种众包设置中进行：开放和封闭。在开放设置中，所有用户都可以访问系统，而在封闭设置中，访问仅限于选定的众包工作者（Prolific）。CRSArena-Dial 是一个用于评估 CRS 和研究用户与 CRS 交互行为的资源。

数据

数据集存储在 data 目录中，包含以下文件：

crs_arena_dial_open.json: 从开放众包设置中收集的对话。
crs_arena_dial_closed.json: 从封闭众包设置中收集的对话。
votes_open.csv: 从开放众包设置中收集的投票和反馈。
votes_closed.csv: 从封闭众包设置中收集的投票和反馈。

数据分析在 DataAnalysis.md 中提供。

对话

CRSArena-Dial 包含 474 个用户与九个对话推荐系统之间的对话。

对话格式

对话以 JSON 格式保存。每个对话表示为一个字典，包含以下键：

conversation ID: 对话的唯一标识符，格式为 {CRS 名称}_{用户 ID}。
agent: CRS 信息。
user: 用户信息。
conversation: 用户与 CRS 之间的交互内容。
- 每个交互内容表示为一个字典，包含以下键：
  - participant: 说话者，即 USER 或 AGENT。
  - utterance: 交互内容的文本。
  - utterance ID: 交互内容的唯一标识符，格式为 {conversation ID}_{交互内容编号}。
metadata: 对话的附加信息，包括用户对 CRS 体验的情感（如满意度或挫败感）。

对话示例：

json { "conversation ID": "barcor_redial_03368a16-93bd-4b21-885d-b9a21e3498ba", "agent": { "id": "barcor_redial", "type": "AGENT" }, "user": { "id": "03368a16-93bd-4b21-885d-b9a21e3498ba", "type": "USER" }, "conversation": [ { "participant": "USER", "utterance": "Recommend me r movi in the science fiction genre ", "utterance ID": "barcor_redial-03368a16-93bd-4b21-885d-b9a21e3498ba_0" }, { "participant": "AGENT", "utterance": "Have you seen Blade Runner 2049 (2017)?", "utterance ID": "barcor_redial-03368a16-93bd-4b21-885d-b9a21e3498ba_1" }, ... ], "metadata": { "sentiment": "frustrated" } }

投票和反馈

CRSArena-Dial 包含从 187 次 CRS 成对比较中收集的投票和反馈。数据以 CSV 格式存储，包含以下列：

session_id: 会话标识符（时间戳）。
user_id: 用户标识符。
crs1: CRS 1 的名称。
crs2: CRS 2 的名称。
vote: 用户选择的 CRS 名称，或如果用户无法决定则为 "tie"。
feedback: 用户提供的可选反馈。

在 tool 目录中提供了一个脚本，用于将投票和反馈信息集成到对话中。使用脚本如下：

sh python tool/merge.py --votes {VOTES_FILE} --dialogue {DIALOGUES_FILE}

该脚本生成一个 JSON 文件，对话条目中包含一个额外的键 vote_result，用于表示在投票文件中对应的投票结果。文件保存在 data/merged 目录中。

搜集汇总

数据集介绍

构建方式

CRSArena-Dial数据集通过CRS Arena平台构建，该平台旨在通过人类反馈对对话推荐系统（CRS）进行可扩展的基准测试。平台展示了匿名CRS之间的成对对战，用户在交互后选择胜者或平局。CRS Arena收集对话和用户反馈，为CRS的可靠评估和排名提供了基础。实验在开放和封闭的众包平台上进行，确认了两种设置下CRS排名和对话特征的高度相关性。最终，CRSArena-Dial数据集包含了474个对话及其相应的用户反馈，并基于Elo评分系统对系统进行了初步排名。

特点

CRSArena-Dial数据集的独特之处在于它包含了CRS与真实用户之间的对话，而非传统的Wizard-of-Oz设置。数据集不仅包含对话内容，还包含用户对CRS的满意度反馈和成对比较结果。此外，数据集在开放和封闭的众包环境中收集，确保了对话特征和用户反馈的多样性和代表性。通过Elo评分系统，数据集还提供了CRS的初步排名，揭示了用户满意度与推荐质量之间的不一致性。

使用方法

CRSArena-Dial数据集可用于多种研究目的，包括CRS的评估、对话特征分析以及用户交互行为的研究。研究者可以通过分析对话内容和用户反馈，深入理解CRS的性能和用户满意度。此外，数据集的成对比较结果和Elo评分系统为CRS的排名提供了基础，有助于进一步优化和改进CRS的设计。数据集的开放性使得研究者能够基于真实用户反馈进行更全面的CRS评估，推动对话推荐系统领域的发展。

背景与挑战

背景概述

随着对话推荐系统（CRS）在个性化推荐领域的日益重要，传统的离线评估方法已难以全面反映其交互性和用户体验。为此，Nolwenn Bernard、Hideaki Joko、Faegheh Hasibi和Krisztian Balog于2025年推出了CRS Arena平台，旨在通过众包方式对CRS进行可扩展的基准测试。该平台通过匿名对话推荐系统的两两对决，收集用户反馈，从而为CRS的可靠评估和排名提供基础。CRS Arena不仅在开放和封闭的众包平台上进行了实验，还发布了包含474个对话及其用户反馈的CRSArena-Dial数据集，为研究CRS的性能和局限性提供了宝贵的资源。

当前挑战

CRSArena-Dial数据集的构建面临多重挑战。首先，对话推荐系统的评估需要考虑其交互性和用户体验，而现有评估方法往往过于依赖离线指标或特定场景的用户研究，难以全面反映系统的实际表现。其次，构建过程中，如何在众包环境中确保数据的质量和一致性是一个难题，尤其是在开放环境中，用户行为可能受到多种因素的影响。此外，数据集中的用户满意度普遍较低，表明现有CRS在理解和响应用户需求方面仍有显著不足，这为未来的研究提出了更高的要求。

常用场景

经典使用场景

CRSArena-Dial数据集的经典使用场景主要集中在对话推荐系统（CRS）的评估与基准测试。该数据集通过收集真实用户与多个CRS之间的对话及其反馈，提供了对CRS性能的全面评估。研究者可以利用这些对话数据进行系统的比较分析，评估不同CRS在推荐质量、用户满意度以及对话流畅性等方面的表现。此外，数据集还支持基于Elo评分系统的排名分析，帮助研究者更好地理解各CRS在实际交互中的相对优劣。

衍生相关工作

CRSArena-Dial数据集的发布催生了一系列相关研究工作。首先，基于该数据集的对话分析和用户反馈研究，推动了对CRS性能的深入理解。其次，研究者利用数据集中的对话数据，开发了新的评估框架和工具，如基于Elo评分的排名系统，进一步提升了CRS的评估效率。此外，数据集的开放性还激发了社区对对话推荐系统的广泛讨论和合作，促进了该领域的技术进步和标准化进程。

数据集最近研究