five

CRSArena-Dial

收藏
arXiv2024-12-14 更新2024-12-18 收录
下载链接:
https://github.com/iai-group/crsarena-dial
下载链接
链接失效反馈
官方服务:
资源简介:
CRSArena-Dial 是由斯塔万格大学和拉德堡德大学联合创建的对话推荐系统(CRS)数据集,包含474个真实用户与CRS之间的对话及其对应的反馈。数据集通过CRS Arena平台在开放和封闭的众包环境中收集,涵盖了多种CRS系统,旨在评估CRS的交互性和用户满意度。数据集的创建过程包括用户与CRS的多次交互,并记录了用户的满意度反馈。该数据集主要应用于对话推荐系统的评估和研究,旨在解决现有CRS评估方法中忽视交互性和用户真实反馈的问题。
提供机构:
斯塔万格大学
创建时间:
2024-12-14
原始信息汇总

CRSArena-Dial 数据集

CRSArena-Dial 是一个包含用户与对话推荐系统(CRS)之间对话及通过 CRS Arena 收集的反馈的数据集。反馈涉及用户对 CRS 的满意度以及通过并排比较的 CRS 之间的成对比较。数据收集在两种众包设置中进行:开放和封闭。在开放设置中,所有用户都可以访问系统,而在封闭设置中,访问仅限于选定的众包工作者(Prolific)。CRSArena-Dial 是一个用于评估 CRS 和研究用户与 CRS 交互行为的资源。

数据

数据集存储在 data 目录中,包含以下文件:

  • crs_arena_dial_open.json: 从开放众包设置中收集的对话。
  • crs_arena_dial_closed.json: 从封闭众包设置中收集的对话。
  • votes_open.csv: 从开放众包设置中收集的投票和反馈。
  • votes_closed.csv: 从封闭众包设置中收集的投票和反馈。

数据分析在 DataAnalysis.md 中提供。

对话

CRSArena-Dial 包含 474 个用户与九个对话推荐系统之间的对话。

对话格式

对话以 JSON 格式保存。每个对话表示为一个字典,包含以下键:

  • conversation ID: 对话的唯一标识符,格式为 {CRS 名称}_{用户 ID}。
  • agent: CRS 信息。
  • user: 用户信息。
  • conversation: 用户与 CRS 之间的交互内容。
    • 每个交互内容表示为一个字典,包含以下键:
      • participant: 说话者,即 USER 或 AGENT。
      • utterance: 交互内容的文本。
      • utterance ID: 交互内容的唯一标识符,格式为 {conversation ID}_{交互内容编号}。
  • metadata: 对话的附加信息,包括用户对 CRS 体验的情感(如满意度或挫败感)。

对话示例:

json { "conversation ID": "barcor_redial_03368a16-93bd-4b21-885d-b9a21e3498ba", "agent": { "id": "barcor_redial", "type": "AGENT" }, "user": { "id": "03368a16-93bd-4b21-885d-b9a21e3498ba", "type": "USER" }, "conversation": [ { "participant": "USER", "utterance": "Recommend me r movi in the science fiction genre ", "utterance ID": "barcor_redial-03368a16-93bd-4b21-885d-b9a21e3498ba_0" }, { "participant": "AGENT", "utterance": "Have you seen Blade Runner 2049 (2017)?", "utterance ID": "barcor_redial-03368a16-93bd-4b21-885d-b9a21e3498ba_1" }, ... ], "metadata": { "sentiment": "frustrated" } }

投票和反馈

CRSArena-Dial 包含从 187 次 CRS 成对比较中收集的投票和反馈。数据以 CSV 格式存储,包含以下列:

  • session_id: 会话标识符(时间戳)。
  • user_id: 用户标识符。
  • crs1: CRS 1 的名称。
  • crs2: CRS 2 的名称。
  • vote: 用户选择的 CRS 名称,或如果用户无法决定则为 "tie"。
  • feedback: 用户提供的可选反馈。

tool 目录中提供了一个脚本,用于将投票和反馈信息集成到对话中。使用脚本如下:

sh python tool/merge.py --votes {VOTES_FILE} --dialogue {DIALOGUES_FILE}

该脚本生成一个 JSON 文件,对话条目中包含一个额外的键 vote_result,用于表示在投票文件中对应的投票结果。文件保存在 data/merged 目录中。

搜集汇总
数据集介绍
main_image_url
构建方式
CRSArena-Dial数据集通过CRS Arena平台构建,该平台旨在通过人类反馈对对话推荐系统(CRS)进行可扩展的基准测试。平台展示了匿名CRS之间的成对对战,用户在交互后选择胜者或平局。CRS Arena收集对话和用户反馈,为CRS的可靠评估和排名提供了基础。实验在开放和封闭的众包平台上进行,确认了两种设置下CRS排名和对话特征的高度相关性。最终,CRSArena-Dial数据集包含了474个对话及其相应的用户反馈,并基于Elo评分系统对系统进行了初步排名。
特点
CRSArena-Dial数据集的独特之处在于它包含了CRS与真实用户之间的对话,而非传统的Wizard-of-Oz设置。数据集不仅包含对话内容,还包含用户对CRS的满意度反馈和成对比较结果。此外,数据集在开放和封闭的众包环境中收集,确保了对话特征和用户反馈的多样性和代表性。通过Elo评分系统,数据集还提供了CRS的初步排名,揭示了用户满意度与推荐质量之间的不一致性。
使用方法
CRSArena-Dial数据集可用于多种研究目的,包括CRS的评估、对话特征分析以及用户交互行为的研究。研究者可以通过分析对话内容和用户反馈,深入理解CRS的性能和用户满意度。此外,数据集的成对比较结果和Elo评分系统为CRS的排名提供了基础,有助于进一步优化和改进CRS的设计。数据集的开放性使得研究者能够基于真实用户反馈进行更全面的CRS评估,推动对话推荐系统领域的发展。
背景与挑战
背景概述
随着对话推荐系统(CRS)在个性化推荐领域的日益重要,传统的离线评估方法已难以全面反映其交互性和用户体验。为此,Nolwenn Bernard、Hideaki Joko、Faegheh Hasibi和Krisztian Balog于2025年推出了CRS Arena平台,旨在通过众包方式对CRS进行可扩展的基准测试。该平台通过匿名对话推荐系统的两两对决,收集用户反馈,从而为CRS的可靠评估和排名提供基础。CRS Arena不仅在开放和封闭的众包平台上进行了实验,还发布了包含474个对话及其用户反馈的CRSArena-Dial数据集,为研究CRS的性能和局限性提供了宝贵的资源。
当前挑战
CRSArena-Dial数据集的构建面临多重挑战。首先,对话推荐系统的评估需要考虑其交互性和用户体验,而现有评估方法往往过于依赖离线指标或特定场景的用户研究,难以全面反映系统的实际表现。其次,构建过程中,如何在众包环境中确保数据的质量和一致性是一个难题,尤其是在开放环境中,用户行为可能受到多种因素的影响。此外,数据集中的用户满意度普遍较低,表明现有CRS在理解和响应用户需求方面仍有显著不足,这为未来的研究提出了更高的要求。
常用场景
经典使用场景
CRSArena-Dial数据集的经典使用场景主要集中在对话推荐系统(CRS)的评估与基准测试。该数据集通过收集真实用户与多个CRS之间的对话及其反馈,提供了对CRS性能的全面评估。研究者可以利用这些对话数据进行系统的比较分析,评估不同CRS在推荐质量、用户满意度以及对话流畅性等方面的表现。此外,数据集还支持基于Elo评分系统的排名分析,帮助研究者更好地理解各CRS在实际交互中的相对优劣。
衍生相关工作
CRSArena-Dial数据集的发布催生了一系列相关研究工作。首先,基于该数据集的对话分析和用户反馈研究,推动了对CRS性能的深入理解。其次,研究者利用数据集中的对话数据,开发了新的评估框架和工具,如基于Elo评分的排名系统,进一步提升了CRS的评估效率。此外,数据集的开放性还激发了社区对对话推荐系统的广泛讨论和合作,促进了该领域的技术进步和标准化进程。
数据集最近研究
最新研究方向
近年来,对话推荐系统(CRS)的研究逐渐从传统的离线评估转向更为真实和互动的用户反馈评估。CRSArena-Dial数据集的推出,标志着这一领域的研究迈向了一个新的高度。该数据集通过CRS Arena平台收集了474次真实用户与对话推荐系统的交互对话及其反馈,提供了基于人类反馈的系统评估和排名。这一研究方向不仅填补了现有评估方法的空白,还为对话推荐系统的改进提供了宝贵的数据支持。通过Elo评分系统对系统进行排名,研究者发现用户满意度与推荐质量之间存在显著差异,这表明未来的研究应更加关注用户体验的整体性。此外,CRSArena-Dial数据集的开放性为社区提供了丰富的资源,推动了对话推荐系统在实际应用中的进一步发展。
相关研究论文
  • 1
    CRS Arena: Crowdsourced Benchmarking of Conversational Recommender Systems斯塔万格大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作