LiveQA

Name: LiveQA
Creator: National Library of Medicine
Published: 2025-09-30T13:35:17+08:00

arXiv2025-09-30 收录

医疗问题解答

自然语言处理

数据链接：

https://github.com/pku-tangent/liveqa 数据链接链接失效反馈

官方服务：

资源简介：

该数据集包含了提交给美国国家医学图书馆的消费者健康问题，其中训练集包含了627组问答对，测试集则有104组。该数据集的任务是医疗问题解答。

This dataset contains consumer health questions submitted to the U.S. National Library of Medicine, with 627 question-answer pairs in the training set and 104 pairs in the test set. The core task of this dataset is medical question answering.

提供机构：

National Library of Medicine

搜集汇总

数据集介绍

构建方式

LiveQA数据集的构建源于对体育赛事直播文本的深度挖掘。研究团队从中国虎扑体育网站采集了超过1670场NBA比赛的实时文字解说，这些解说由主持人以富有情感和多样句式呈现，并嵌入了大量与比赛进程相关的互动问答。通过爬取每场比赛的唯一标识符及其对应时间线数据，团队保留了问题在时间轴上的精确位置，确保问题与上下文的时空关联不被割裂。随后，利用规则过滤掉无关互动（如主持人与读者的闲聊）以及依赖外部信息的半场福利问题，最终整理出包含约11.7万个多选题的语料库，每个问题均附带两个选项及正确答案，形成一种基于时间序列的阅读理解挑战。

特点

该数据集的核心特点在于其时间感知性与数学推理需求。所有问题均嵌入比赛直播的时间线中，要求模型理解事件发生的先后顺序与动态变化，例如追踪某位球员的得分进程或判断哪支球队率先达到特定分数。此外，约25.4%的问题涉及数学计算（如加减法），16.6%需要比较操作，而28.5%的推理题和29.5%的追踪题则要求模型从分散的文本中整合信息，例如统计某球员的犯规次数或推断暂停后的首次进攻结果。这种多跳推理与时空建模的复合需求，使得LiveQA显著区别于传统基于静态段落抽取的问答数据集，成为评估模型时序理解能力的独特基准。

使用方法

使用LiveQA时，需将比赛解说文本与对应问题按时间线对齐，每个数据样本包含连续的直播记录，其中问题记录嵌入在相应时间点。模型的输入是问题及问题出现前的全部上下文（而非整个文档），输出为二选一的答案。为降低长文本处理难度，可采用流水线方法：先通过TF-IDF匹配提取50句候选证据，再应用多跳推理模型（如Gated-Attention Reader）进行答案预测。然而，实验显示该基线模型仅达到53.1%的准确率，低于简单的主导选项策略（56.4%），表明现有模型在时间追踪与数学计算上的局限。未来研究应聚焦于设计能融合时间信息与数学推理的专用架构，例如引入事件追踪机制或动态计算模块。

背景与挑战

背景概述

在自然语言处理领域，机器阅读理解（MRC）研究长期聚焦于从静态文本中抽取答案，但现实世界中的问答往往涉及动态时间线信息，例如体育赛事直播中，问题的答案会随比赛进程实时变化，这构成了现有数据集尚未覆盖的空白。为填补这一缺口，北京大学、京都大学与华盛顿大学的研究团队于2020年联合构建了LiveQA数据集。该数据集基于虎扑NBA中文直播文本，包含1,670场比赛的117,050道选择题，由人类解说员在直播过程中实时撰写，旨在评估模型对时间线推理、事件追踪与数学计算的能力。作为首个聚焦体育直播时间线理解的问答数据集，LiveQA开辟了MRC研究的新方向，其特性对现有模型构成显著挑战，推动领域向更复杂的时序与推理能力迈进。

当前挑战

LiveQA所解决的领域问题核心在于时间线推理与数学计算的融合。传统问答数据集多依赖局部文本匹配，而LiveQA要求模型在动态直播流中理解问题的时间依赖性，例如追踪“哪支球队率先获得10分”这类跨事件推理，或执行“两队总得分是否达到207分”的算术运算。构建过程中面临多重挑战：首先，需从直播文本中精准分离出与比赛无关的主播互动或中场福利问题，确保数据纯净；其次，问题与上下文的时序位置不可分割，若脱离时间戳，多数问题将无法回答；最后，问题类型涵盖比较、计算、推理与追踪四类，其中追踪类问题要求模型统计球员单节犯规次数等分散事件，对信息整合能力要求极高。实验表明，强基线模型Gated-Attention Reader仅达53.1%的准确率，未超越主导选项规则，凸显了该数据集的严峻挑战性。

常用场景

经典使用场景

LiveQA数据集主要应用于基于时间线的体育赛事直播问答场景。该数据集从NBA比赛的中文直播解说文本中构建，包含超过11.7万道选择题，每道题目都嵌入在比赛进程的时间线中。研究者在训练和评估问答模型时，通常将直播文本作为上下文，要求模型在特定时间点对比赛事件进行理解与推理。这一场景的独特性在于，问答不再基于静态文档，而是需要模型动态追踪比赛进程，理解时间顺序对答案的影响，从而测试模型在时间感知推理方面的能力。

衍生相关工作

LiveQA的提出催生了多项相关研究工作。最直接的是，研究者基于该数据集开发了多跳推理与时间感知的问答模型，如改进后的Gated-Attention Reader和结合时序编码的Transformer架构。此外，该数据集推动了体育文本理解领域的进展，衍生出如体育新闻自动生成、直播文本摘要及赛事事件预测等任务。后续工作还探索了将时间线推理与数学计算相结合的端到端模型，以及跨语言体育问答系统的构建，进一步拓展了LiveQA在自然语言处理中的影响力。

数据集最近研究

LiveQA

资源简介：

相关数据集