five

WildChat-AQA|自然语言处理数据集|对话系统数据集

收藏
arXiv2025-05-30 更新2025-05-31 收录
自然语言处理
对话系统
下载链接:
https://github.com/yuntian-group/wildchat_aqa
下载链接
链接失效反馈
资源简介:
WildChat-AQA数据集由滑铁卢大学的研究团队构建,包含了从182,330个真实世界聊天机器人对话中提取的6,027个聚合问题。该数据集旨在支持聚合问答的研究,要求模型对大量用户-聊天机器人交互进行推理,以回答聚合查询,例如识别特定人口统计群体中的新兴问题。数据集涵盖了28个高级主题,455个细粒度子主题,以及14,482个关键词类别。WildChat-AQA数据集为评估模型在大规模对话数据集上进行整体推理的能力提供了一个资源。
提供机构:
滑铁卢大学
创建时间:
2025-05-30
AI搜集汇总
数据集介绍
main_image_url
构建方式
WildChat-AQA数据集的构建过程分为四个关键步骤:首先对原始聊天记录进行去重和预处理,确保数据质量和多样性;随后利用GPT-4o进行对话摘要和关键词提取,通过TnT-LLM算法构建双层主题分类体系;接着采用语义聚类方法对高频关键词进行精细化分类;最后基于属性组合生成聚合性问题,并通过多阶段质量验证确保问题的可回答性和区分度。整个过程融合了大规模语言模型推理与结构化数据库查询技术,实现了从182,330条真实对话到6,027个聚合问题的系统化转换。
使用方法
使用该数据集时,建议采用三阶段方法:首先通过Elasticsearch建立对话内容的索引结构,支持高效检索;其次采用PROBE等专用检索方法获取与聚合问题相关的广泛证据;最后利用排名学习或生成式模型进行跨对话推理。评估时采用NDCG@k指标衡量模型对候选答案的排序能力,特别需要注意处理长上下文(最高达1亿token)的计算挑战。数据集配套提供的可视化工具可辅助分析问题类型分布和对话特征。
背景与挑战
背景概述
WildChat-AQA数据集由滑铁卢大学和康奈尔大学的研究团队于2025年创建,旨在解决大规模对话数据中的聚合问答问题。该数据集基于182,330条真实用户与聊天机器人的对话记录,构建了6,027个聚合性问题,涵盖28个主题和455个子主题。其核心研究问题聚焦于如何从海量对话日志中提取集体洞察,例如识别特定人群的关注点或追踪社会态度的演变。该数据集的推出填补了现有研究将对话视为独立事件的空白,为社会学、计算语言学和人机交互领域提供了全新的分析维度。
当前挑战
WildChat-AQA面临双重挑战:在领域问题上,现有模型难以有效处理跨数千条对话的全局推理,且计算成本高昂;在构建过程中,需克服对话噪声过滤、多层级主题分类体系构建,以及从非结构化对话中提取可聚合语义特征等技术难点。特别地,关键词的跨对话归一化处理和时效性敏感问题的动态建模,构成了数据构建过程中的显著挑战。
常用场景
经典使用场景
WildChat-AQA数据集在自然语言处理领域中被广泛应用于大规模对话数据的聚合性问答任务。研究人员利用该数据集训练和评估模型,使其能够从海量用户与聊天机器人的交互中提取集体洞察,例如识别特定时间段内的热门话题或特定人群的关注点。数据集的多选题格式和丰富的元数据为模型提供了多样化的测试场景。
解决学术问题
该数据集解决了传统对话系统研究中将交互视为独立事件的局限性问题。通过引入聚合性问答任务,WildChat-AQA推动了从全局角度理解对话数据的研究,填补了在跨对话推理和集体洞察提取方面的空白。其构建方法为处理大规模非结构化对话数据提供了标准化范式,显著提升了模型在时空维度和人口统计特征上的推理能力。
实际应用
在实际应用中,WildChat-AQA支持构建智能分析系统,用于实时监测社会舆情动态。企业可通过该数据集训练模型来分析用户反馈中的共性需求,政府部门能识别区域性的紧急关切,教育机构则可追踪学生对新兴技术的态度演变。这些应用都依赖于模型对182,330条真实对话的深层语义理解和跨会话推理能力。
数据集最近研究
最新研究方向
近年来,WildChat-AQA数据集在自然语言处理领域引起了广泛关注,特别是在聚合问答任务(Aggregative Question Answering)的研究中。该数据集通过分析大规模用户与聊天机器人的对话日志,旨在挖掘社会兴趣、趋势话题和集体关注点。前沿研究方向包括开发高效的检索增强生成(RAG)方法,如PROBE(Probing Retrieval Of Broad Evidence),以解决现有模型在全局推理和计算成本方面的局限性。此外,研究还聚焦于如何在长上下文环境中进行有效推理,以及如何降低聚合问答任务的算力消耗。WildChat-AQA的推出为学术界提供了一个重要的基准,推动了从对话数据中提取集体洞察的新方法,具有深远的社会影响和应用潜力。
相关研究论文
  • 1
    From Chat Logs to Collective Insights: Aggregative Question Answering滑铁卢大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

Global Volcanism Program (GVP)

该数据集包含了全球火山活动的详细信息,包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。

volcano.si.edu 收录