five

InsCoQA

收藏
arXiv2024-10-01 更新2024-10-09 收录
下载链接:
https://arxiv.org/pdf/2410.00526v1
下载链接
链接失效反馈
官方服务:
资源简介:
InsCoQA数据集由中国科学技术大学和Xiaohongshu公司联合创建,旨在评估大型语言模型在多指令文档中的对话问答能力。该数据集包含13959条对话样本,涵盖13个不同的领域,如家居装饰、美食、学习等。数据集通过从Xiaohongshu平台收集用户生成的内容,并经过人工注释和验证,确保高质量的标注。InsCoQA数据集的创建过程包括数据收集、过滤、多文档检索、对话生成和人工检查等步骤。该数据集主要应用于评估模型在复杂真实世界任务中的理解和生成能力,旨在解决从多文档中提取和总结步骤性指导的问题。

The InsCoQA dataset was jointly created by the University of Science and Technology of China and Xiaohongshu, aiming to evaluate the conversational question answering capabilities of large language models in multi-instruction documents. This dataset contains 13,959 conversational samples covering 13 distinct domains such as home decoration, cuisine, learning and other fields. The dataset is constructed by collecting user-generated content from the Xiaohongshu platform, followed by manual annotation and validation to ensure high-quality annotations. The creation process of the InsCoQA dataset includes steps such as data collection, filtering, multi-document retrieval, dialogue generation and manual inspection. This dataset is mainly applied to evaluate the understanding and generation capabilities of models in complex real-world tasks, aiming to solve the problem of extracting and summarizing step-by-step guidance from multiple documents.
提供机构:
中国科学技术大学
创建时间:
2024-10-01
搜集汇总
数据集介绍
main_image_url
构建方式
InsCoQA数据集的构建基于从Xiaohongshu平台提取的大量用户查询和相关指令文档。首先,通过OpenAI GPT-4过滤出高质量的指令性查询,然后使用内部信息检索引擎从Xiaohongshu平台检索多个相关文档。这些文档经过精心筛选,确保其内容为详细的步骤指导。随后,使用GPT-4生成多轮对话历史和最终问题,并根据用户查询和多个参考文档生成响应和总结出程序性指导。最后,通过人工审核确保数据集的高质量。
特点
InsCoQA数据集的显著特点在于其多文档信息收集和程序性指导总结。与传统的单文档CQA数据集不同,InsCoQA要求模型从多个指令文档中提取、综合和推理信息,以提供准确的步骤指导。此外,数据集强调复杂现实任务的解决,涵盖从家居装饰到技术故障排除等多个领域,确保任务的非平凡性和详细理解需求。
使用方法
InsCoQA数据集主要用于评估大型语言模型在对话问答(CQA)任务中的表现,特别是处理多指令文档的能力。使用该数据集时,模型需要根据提供的对话历史和多个指令文档生成自然语言响应,并总结出详细的程序性指导。评估方法包括INSEVAL,它通过LLM辅助评估和文本匹配评估来衡量生成响应和程序性指导的完整性和准确性。
背景与挑战
背景概述
InsCoQA数据集由中科大和Xiaohongshu.Inc的研究团队于2024年共同创建,旨在评估大型语言模型在多指令文档情境下进行对话问答的能力。该数据集的核心研究问题是如何从复杂的真实世界指令文档中提取、解释并准确总结程序性指导,以应对日常生活中的任务。InsCoQA的推出填补了现有基准在处理多文档、多步骤任务方面的不足,为评估模型在复杂任务中的表现提供了新的标准。
当前挑战
InsCoQA数据集面临的挑战主要集中在两个方面:一是解决领域问题的挑战,即如何从多文档中提取并整合信息,以提供准确且全面的步骤指导;二是构建过程中的挑战,包括从Xiaohongshu平台收集高质量的指令文档,确保数据集的多样性和复杂性,以及通过人工标注和LLM辅助评估来保证数据集的高质量。这些挑战要求模型具备深层次的理解和推理能力,以应对真实世界任务的复杂性。
常用场景
经典使用场景
InsCoQA数据集的经典使用场景在于评估大型语言模型(LLMs)在多指令文档情境下进行对话式问答(CQA)的能力。该数据集通过从广泛的用户生成内容中提取的复杂任务,要求模型从多个文档中检索、解释并准确总结程序性指导,以提供详尽的步骤指导。这种场景特别适用于需要多步骤操作的实际任务,如家具组装或电子设备故障排除。
衍生相关工作
基于InsCoQA数据集,研究者们开发了多种相关工作,包括改进的对话式问答模型、多文档信息整合算法以及程序性指导生成技术。例如,INSEVAL评估工具的提出,通过LLM辅助评估生成的回答和程序性指导的完整性和准确性,进一步提升了模型评估的全面性。此外,InsCoQA还激发了对多模态对话式问答和知识增强对话系统的研究,推动了对话式人工智能领域的技术创新。
数据集最近研究
最新研究方向
在对话式问答(CQA)领域,InsCoQA数据集的最新研究方向聚焦于评估大型语言模型(LLMs)在多指令文档中的对话问答能力。该数据集通过从广泛的用户生成内容中提取复杂的多文档信息,挑战模型在真实世界任务中检索、解释和准确总结程序性指导的能力。研究不仅关注模型的语义理解和信息整合能力,还引入了INSEVAL评估工具,以全面评估模型生成的响应和程序性指令的完整性与准确性。这一方向的研究对于提升AI系统在复杂任务中的实用性和用户体验具有重要意义。
相关研究论文
  • 1
    Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents中国科学技术大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作