PSCon
收藏arXiv2025-02-20 更新2025-02-25 收录
下载链接:
http://arxiv.org/abs/2502.13881v1
下载链接
链接失效反馈官方服务:
资源简介:
PSCon数据集是一个面向产品搜索的对话型数据集,由电子科技大学等多个机构合作构建。该数据集通过人类之间的真实对话收集而成,旨在支持两种语言和跨市场应用,包含用户意图检测、关键词提取、系统动作预测、问题选择、项目排名和响应生成六个子任务的探索。
The PSCon Dataset is a conversational dataset for product search, co-constructed by multiple institutions including the University of Electronic Science and Technology of China. It is collected from real human-to-human conversations, aiming to support two-language and cross-market applications, and covers exploration of six subtasks: user intent detection, keyword extraction, system action prediction, question selection, item ranking, and response generation.
提供机构:
电子科技大学
创建时间:
2025-02-20
搜集汇总
数据集介绍

构建方式
PSCon数据集的构建采用了由人类指导的人类之间进行对话的数据收集协议,旨在通过类似人类的对话来协助产品搜索。数据收集过程包括六个子任务:用户意图检测、关键词提取、系统动作预测、问题选择、项目排名和响应生成。参与者被随机分配为系统角色或用户角色,在模拟的电子商务环境中进行对话。系统角色负责帮助用户找到目标产品,而用户角色则表达他们对产品的需求。对话过程中,系统角色会根据用户的反馈进行关键词提取、问题选择和产品推荐。此外,数据集还收集了关于产品的详细信息,如产品描述、评论和元数据,以支持知识图谱驱动的CPS模型的发展。
特点
PSCon数据集的特点在于其真实性和多样性。数据集由真实的人类对话组成,反映了现实世界中的产品搜索场景。此外,数据集支持两个市场和两种语言(英语和中文),为跨市场和多语言的产品搜索研究提供了可能。数据集包含了1,730个对话和10,887个话语,推荐了5,212种产品。每个对话包含5到16个话语,3到7个回合,以及1到30个产品。数据集还提供了对话的详细注释,包括用户意图、关键词、系统动作、澄清问题的属性以及推荐的产品。这些注释为研究人员提供了丰富的信息,可以用于训练和评估CPS模型。
使用方法
PSCon数据集可用于训练和评估各种CPS模型,包括用户意图检测、关键词提取、系统动作预测、问题选择、项目排名和响应生成等子任务。研究人员可以使用数据集中的对话和注释来训练模型,并通过评估指标来衡量模型的性能。此外,数据集还可以用于构建知识图谱驱动的CPS模型,以及研究跨市场和跨语言的产品搜索。为了使用PSCon数据集,研究人员需要了解数据集中的六个子任务以及相应的数据格式。他们可以使用Python等编程语言来处理数据,并使用深度学习框架(如TensorFlow或PyTorch)来训练模型。数据集的详细说明和代码示例可以在其官方网站上找到。
背景与挑战
背景概述
随着电子商务的兴起,传统的产品搜索系统已无法满足用户的需求。用户与系统之间的语义差距导致搜索效率低下,且现有研究多采用模拟对话,缺乏真实的人类对话数据集。为了解决这一问题,中国电子科技大学的Zou Jie等研究人员于2025年提出了PSCon数据集。该数据集采用人类对话协议收集数据,支持中英两种语言和两个市场,旨在通过人类对话辅助产品搜索。PSCon数据集的提出,为相关领域的研究提供了重要的数据基础,有助于推动对话式产品搜索技术的发展。
当前挑战
PSCon数据集面临的挑战主要包括:1) 所解决的领域问题:现有对话数据集主要模拟用户与系统之间的对话,缺乏真实的人类对话数据,而PSCon数据集则通过人类对话协议收集数据,更贴近真实场景,有助于提高对话式产品搜索系统的准确性和实用性。2) 构建过程中所遇到的挑战:PSCon数据集的构建过程涉及大量的人工参与,数据收集过程复杂且成本高昂,难以大规模扩展。此外,数据集的质量控制也需要严格的措施,以确保数据的准确性和可靠性。
常用场景
经典使用场景
PSCon数据集主要用于模拟人类对话的产品搜索场景,通过收集真实的人与人之间的对话数据,以更好地理解用户的产品需求,并帮助用户找到目标产品。数据集支持两种语言和双市场,使得研究可以跨市场和跨语言进行。数据集还支持六个子任务,包括用户意图检测、关键词提取、系统动作预测、问题选择、商品排名和响应生成,这些子任务涵盖了产品搜索的各个方面。
实际应用
PSCon数据集的实际应用场景主要包括电子商务平台的产品搜索、推荐系统以及客户服务等方面。通过利用PSCon数据集,电子商务平台可以更好地理解用户的需求,从而提供更准确的产品推荐和更高效的产品搜索服务。同时,PSCon数据集还可以用于开发智能客服系统,通过模拟真实的对话场景,提高客服系统的交互性和用户体验。PSCon数据集的应用将有助于提高电子商务平台的用户体验和满意度,从而提高用户的购买转化率和平台的竞争力。
衍生相关工作
PSCon数据集的发布衍生了一系列相关的研究工作。例如,基于PSCon数据集,研究人员可以开发新的产品搜索模型和算法,以提高产品搜索的准确性和效率。同时,PSCon数据集还可以用于开发跨市场和跨语言的搜索和推荐系统,以满足不同用户的需求。此外,PSCon数据集还可以用于开发智能客服系统,通过模拟真实的对话场景,提高客服系统的交互性和用户体验。这些相关工作将进一步推动产品搜索领域的发展,并提高电子商务平台的用户体验和满意度。
以上内容由遇见数据集搜集并总结生成



