INSPIRED2
收藏arXiv2022-09-07 更新2024-06-21 收录
下载链接:
https://github.com/ahtsham58/INSPIRED2
下载链接
链接失效反馈官方服务:
资源简介:
INSPIRED2是由克拉根福大学创建的数据集,专注于社交对话推荐,包含1001个对话,平均每对话10.73轮,平均每轮7.93个tokens。数据集通过手动修正INSPIRED数据集中的标注错误而创建,旨在提高对话推荐系统的性能。INSPIRED2数据集的应用领域主要集中在提升对话推荐系统的质量和用户交互的自然性,通过改进数据质量来增强系统的响应准确性和一致性。
INSPIRED2 is a dataset developed by the University of Klagenfurt, focusing on social conversational recommendation. It contains 1001 conversations, with an average of 10.73 turns per conversation and 7.93 tokens per turn on average. This dataset was constructed by manually correcting annotation errors in the original INSPIRED dataset, aiming to improve the performance of conversational recommendation systems. The core application scenarios of INSPIRED2 center on enhancing the quality of conversational recommendation systems and the naturalness of user interactions, as well as strengthening the response accuracy and consistency of such systems by improving data quality.
提供机构:
克拉根福大学
创建时间:
2022-08-08
搜集汇总
数据集介绍

构建方式
INSPIRED2数据集的构建基于先前收集的推荐对话,这些对话是通过配对的人类收集的,其中一个人扮演寻求者的角色,另一个人扮演推荐者的角色。这些推荐对话包括表明用户偏好的项目和实体。为了精确地模拟寻求者的偏好并做出一致的响应,CRS通常依赖于项目和实体的注释。INSPIRED数据集是一个包含社交对话推荐的推荐对话数据集,其中项目和实体是使用自动关键字或模式匹配技术进行注释的。然而,对INSPIRED数据集的分析表明,存在大量案例,其中项目和实体被错误注释或注释缺失。为了解决这个问题,我们手动修复了INSPIRED数据集中的注释,创建了INSPIRED2数据集。
特点
INSPIRED2数据集的特点在于它通过手动修复了INSPIRED数据集中存在的错误注释和缺失注释的问题,从而提高了数据质量。此外,INSPIRED2数据集还删除了原始数据集中的噪声,使得数据更加准确和清晰。INSPIRED2数据集的另一个特点是它包含了丰富的社交对话和解释策略,这些策略对于构建可信的CRS非常重要。
使用方法
INSPIRED2数据集的使用方法包括:1. 使用INSPIRED2数据集训练和评估CRS模型,包括基于端到端学习和检索的方法。2. 使用INSPIRED2数据集进行人类评估,以评估CRS模型生成的系统响应的语言质量。3. 使用INSPIRED2数据集进行知识概念的丰富度分析,以理解新的注释对系统响应的影响。4. 使用INSPIRED2数据集进行BLEU分数分析,以评估数据质量与系统响应感知质量之间的关系。
背景与挑战
背景概述
INSPIRED2数据集的创建旨在改善社会性对话推荐系统的性能。该数据集由奥地利克拉根福特大学的Ahtsham Manzoor和Dietmar Jannach于2022年9月发布,是对先前INSPIRED数据集的改进版。INSPIRED2通过手动校正和清理INSPIRED中存在的大量错误和缺失的注释,以解决先前数据集中自动化注释技术的局限性。该数据集的创建是为了更好地理解数据质量对对话推荐系统性能的影响,特别是在生成式和检索式方法中。INSPIRED2数据集的发布对相关领域产生了重要影响,它提高了多个基准对话推荐系统的性能,并强调了数据质量在构建自然语言对话系统中的重要性。
当前挑战
INSPIRED2数据集在构建过程中面临了几个挑战。首先,自动化注释技术,如关键词或模式匹配,在处理拼写错误、不完整的电影标题或模糊性方面存在局限性。这导致了一些注释的遗漏或错误,以及部分注释的实体和项目。其次,数据中存在的噪声和格式不一致也影响了注释算法的性能。此外,对于实体和概念的识别和注释需要大量的人工努力和时间,这在某些领域可能成本高昂且难以实现。为了解决这些问题,INSPIRED2通过手动校正和清理注释,增加了近20%的新注释,以提高数据集的质量。然而,尽管进行了这些改进,构建高质量的数据集仍然是一个昂贵且耗时的过程。
常用场景
经典使用场景
INSPIRED2数据集在社交对话推荐系统(CRS)的研究中扮演着核心角色。该数据集提供了丰富的推荐对话,其中包含了用户偏好相关的物品和实体。研究人员可以利用这些对话数据来训练和评估各种CRS模型,旨在提高系统的推荐质量和对话的自然流畅性。
解决学术问题
INSPIRED2数据集解决了CRS领域中数据质量对系统性能影响的学术问题。原始的INSPIRED数据集中存在大量的错误标注和缺失标注,这直接影响了CRS的性能。通过手动修正和清理数据,INSPIRED2数据集显著提升了标注的准确性和对话的自然性,为CRS的研究提供了更加可靠的数据基础。
衍生相关工作
INSPIRED2数据集的发布推动了CRS领域的研究进展,衍生出一系列基于该数据集的经典工作。这些研究不仅关注了数据质量对CRS性能的影响,还探索了不同的CRS模型设计、评估方法和应用场景,为CRS的发展提供了重要的理论基础和实践经验。
以上内容由遇见数据集搜集并总结生成



