five

Neural Conversational QA

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Neural_Conversational_QA
下载链接
链接失效反馈
官方服务:
资源简介:
神经对话 QA 任务(如 ShARC)要求系统根据给定段落的内容回答问题。在研究最近关于 ShARC QA 任务的最先进模型时,我们发现模型学习数据集中虚假线索/模式的迹象。此外,为利用这些模式而构建的基于启发式的程序具有与神经模型相比的性能。在本文中,我们分享了我们对 ShARC 语料库中四种模式以及神经模型如何利用它们的发现。受上述发现的启发,我们创建并共享了一个修改后的数据集,该数据集的虚假模式比原始数据集更少,从而使模型能够更好地学习。

Neural conversational QA tasks (e.g., ShARC) require systems to answer questions based on the content of given paragraphs. When investigating recent state-of-the-art models for the ShARC QA task, we observed signs that models learn spurious cues/patterns within the dataset. Furthermore, heuristic-based programs built to exploit these patterns achieved performance comparable to that of neural models. In this work, we share our findings regarding four patterns present in the ShARC corpus and how neural models exploit them. Motivated by these findings, we created and shared a modified dataset with fewer spurious patterns than the original dataset, enabling models to learn more effectively.
提供机构:
OpenDataLab
创建时间:
2022-06-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Neural Conversational QA数据集专注于神经对话QA任务,旨在解决模型在学习过程中利用数据集中虚假模式的问题。为此,研究者创建了一个修改后的版本,以减少这些模式并提升模型学习效果,该数据集由印度理工学院和IBM Research AI于2020年发布。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作