pchristm/ConvMix
收藏Hugging Face2023-05-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pchristm/ConvMix
下载链接
链接失效反馈官方服务:
资源简介:
ConvMix是第一个用于异构来源上的对话式问答(ConvQA)的基准数据集,包含3000个真实用户的对话,共16000个问题,以及实体注释、完整的问题表述和问题改写。该数据集自然要求从多个来源获取信息以回答对话中的各个问题。数据集的创建通过亚马逊的Mechanical Turk平台,由真实用户选择感兴趣的实体并围绕其发起对话,确保数据的自然性和多样性。
ConvMix是第一个用于异构来源上的对话式问答(ConvQA)的基准数据集,包含3000个真实用户的对话,共16000个问题,以及实体注释、完整的问题表述和问题改写。该数据集自然要求从多个来源获取信息以回答对话中的各个问题。数据集的创建通过亚马逊的Mechanical Turk平台,由真实用户选择感兴趣的实体并围绕其发起对话,确保数据的自然性和多样性。
提供机构:
pchristm
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-4.0
- 任务类别:
- 问答
- 对话
- 语言: 英语
- 标签:
- 复杂
- 问答
- 对话QA
- 对话AI
- 对话
- QA
- 异构来源
- 数据集名称: ConvMix
- 数据集大小: 10K<n<100K
数据集划分
- 训练集: 8400个样本
- 验证集: 2800个样本
- 测试集: 4800个样本
数据集详情
- 数据集描述:
- ConvMix是第一个针对异构来源的对话问答(ConvQA)的基准数据集,包含3000个真实用户的对话和16000个问题,以及实体标注、完整问题语句和问题释义。
- 该数据集自然需要从多个来源获取信息以回答对话中的个别问题。
数据集创建
- 创建方式: 由真实人类创建,通过Amazon Mechanical Turk(AMT)的资深众包工人进行。
- 数据收集过程:
- 众包工人选择特定领域的感兴趣实体,并围绕该实体发起对话问题,对话过程中可能涉及其他感兴趣的话题。
- 用户被要求在Wikidata、Wikipedia文本、Wikipedia表格或Wikipedia信息框中找到答案,根据特定问题的需要选择最自然的方式。
- 为每个可能不完整的问题提供意图明确、无需对话上下文即可回答的完整问题。
- 提供用户找到答案的来源和问题实体。
搜集汇总
数据集介绍

构建方式
在对话式问答领域,ConvMix数据集的构建体现了对自然对话流程的深度模拟。该数据集通过亚马逊众包平台,由经验丰富的工作人员自主选择特定领域的实体作为对话起点,并围绕该实体展开多轮提问,允许话题在对话过程中自然漂移。为确保回答的真实性与多样性,工作人员需从维基数据、维基百科文本、表格或信息框中寻找答案,并针对不完整的对话问题提供意图明确的完整问题表述,从而形成了兼具上下文依赖与独立问答能力的语料库。
特点
ConvMix数据集的核心特点在于其异构来源的问答结构,涵盖了3000个真实用户对话与16000个问题,每个问题均需从多种信息源中综合获取答案。数据集不仅包含实体标注与问题改写,还通过自然的话题转换模拟了真实对话的复杂性,为研究对话式人工智能在多源信息整合与上下文理解方面的能力提供了丰富且贴近实际的评估基准。
使用方法
该数据集适用于对话式问答系统的训练与评估,用户可通过提供的训练、验证与测试划分,针对模型在异构信息源中的答案检索与上下文维护能力进行系统性实验。数据集中每个问题均标注了答案来源与实体信息,研究者可结合完整问题表述与对话历史,探索多轮问答中信息融合与推理的机制,推动对话系统在复杂真实场景中的应用发展。
背景与挑战
背景概述
ConvMix数据集由马克斯·普朗克信息学研究所的Philipp Christmann等人于2022年构建,旨在推动异构源对话问答(ConvQA)领域的研究。该数据集聚焦于真实用户在多轮对话中提出的复杂问题,这些问题需要从维基数据、维基百科文本、表格及信息框等多种异构信息源中综合提取答案。ConvMix作为首个针对异构源对话问答的基准,填补了传统对话系统在跨源信息整合能力评估上的空白,为自然语言处理与知识推理的交叉研究提供了关键资源。
当前挑战
ConvMix数据集的核心挑战在于解决异构源对话问答中信息融合与上下文依赖的复杂性。具体而言,模型需在多轮对话中动态追踪用户意图,并从结构化知识库与非结构化文本等异构源中精准检索并推理答案,这对模型的跨源理解与逻辑连贯性提出了极高要求。在构建过程中,挑战主要体现于确保对话的自然性与数据质量:通过众包平台收集真实用户对话时,需引导参与者基于自选实体发起话题,同时平衡不同信息源的使用难度,例如维基数据的知识库查询需要专门培训,以维持答案来源的多样性与标注一致性。
常用场景
经典使用场景
在对话式人工智能领域,ConvMix数据集为研究异构信息源下的多轮对话问答提供了关键基准。该数据集通过真实用户构建的对话,模拟了人类在复杂信息检索场景中的自然交互过程,其中每个问题可能涉及维基数据、维基百科文本、表格或信息框等多种来源。这种设计使得模型必须动态整合不同结构的数据,以理解对话上下文并准确回答,从而推动了对话系统在跨源推理能力上的探索与优化。
实际应用
在实际应用中,ConvMix数据集可赋能智能助手、客户服务系统和教育工具等场景,提升其处理多轮、多源信息查询的能力。例如,在医疗或法律咨询领域,系统能够结合结构化知识库与非结构化文本,为用户提供精准且连贯的解答。这种能力不仅增强了人机交互的流畅度,还推动了行业向个性化、上下文感知的服务模式转型,具有广泛的商业与社会价值。
衍生相关工作
基于ConvMix数据集,学术界衍生了一系列经典研究工作,主要集中在跨源对话建模、上下文感知检索以及端到端问答系统的优化上。例如,部分研究利用该数据集的异构特性,开发了新型的图神经网络架构,以融合知识图谱与文本信息;另一些工作则专注于对话历史的动态编码策略,提升了模型对长程依赖的捕捉能力。这些进展共同推动了对话式AI在复杂场景下的理论创新与技术落地。
以上内容由遇见数据集搜集并总结生成



