PedroCJardim/QASports
收藏Hugging Face2024-03-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PedroCJardim/QASports
下载链接
链接失效反馈官方服务:
资源简介:
QASports是一个大型体育主题问答数据集,包含超过1.5百万个关于54k预处理维基页面的问答,涵盖足球、美式足球和篮球三种流行体育项目。数据集支持抽取式问答任务,使用英语。
QASports is a large-scale sports-themed question answering dataset. It contains over 1.5 million question-answer pairs sourced from 54k preprocessed Wikipedia pages, covering three popular sports: soccer, American football, and basketball. This dataset supports extractive question answering tasks and is in English.
提供机构:
PedroCJardim
原始信息汇总
数据集概述
名称: QASports
描述: QASports是一个大型体育主题问答数据集,包含超过150万个关于54,000个预处理维基页面的问答。该数据集使用足球、美式足球和篮球这三种全球最受欢迎的体育项目的维基页面作为文档。每个体育项目可以单独下载,包括训练集、测试集和验证集,或者三个体育项目的数据可以一起下载。
数据集结构:
- 数据实例: 每个实例包含问题、答案、上下文、问答ID、上下文ID、上下文标题和URL。
- 数据字段:
id_qa: 字符串context_id: 字符串context_title: 字符串url: 字符串context: 字符串question: 字符串answers: 字典,包含text: 字符串offset: 列表,包含2个整数(起始和结束位置)
数据集配置:
- all: 包含所有体育项目的训练、测试和验证数据。
- basketball: 仅包含篮球的训练、测试和验证数据。
- football: 仅包含美式足球的训练、测试和验证数据。
- soccer: 仅包含足球的训练、测试和验证数据。
许可证: MIT
任务类别: 抽取式问答
语言: 英语
标签: 体育、开放领域问答、抽取式问答
大小类别: 1M<n<10M
引用信息:
@inproceedings{jardim:2023:qasports-dataset, author={Pedro Calciolari Jardim and Leonardo Mauro Pereira Moraes and Cristina Dutra Aguiar}, title = {{QASports}: A Question Answering Dataset about Sports}, booktitle = {Proceedings of the Brazilian Symposium on Databases: Dataset Showcase Workshop}, address = {Belo Horizonte, MG, Brazil}, url = {https://github.com/leomaurodesenv/qasports-dataset-scripts}, publisher = {Brazilian Computer Society}, pages = {1-12}, year = {2023} }
搜集汇总
数据集介绍

构建方式
在体育信息处理领域,QASports数据集通过系统化方法构建,其基础源自全球三大流行运动——足球、美式足球和篮球的维基百科页面。构建过程涉及对超过五万四千个预处理维基页面的深度挖掘,从中提取并生成超过一百五十万条问答对。数据被精心划分为训练集、测试集和验证集,并可按运动类别单独下载或整体获取,确保了数据组织的灵活性与完整性。
使用方法
该数据集主要用于训练和评估抽取式问答模型,用户可通过HuggingFace平台直接加载配置,选择全部运动或特定运动子集进行实验。数据字段统一,包含问题、上下文、答案文本及其位置偏移量,便于模型学习定位精确答案。研究人员可利用其标准化的分割方式,在训练集上优化模型,在验证集和测试集上评估性能,推动体育领域自然语言处理技术的进步。
背景与挑战
背景概述
在自然语言处理领域,开放域问答系统的发展亟需高质量、大规模的专业领域数据集作为支撑。QASports数据集由Pedro Calciolari Jardim等研究人员于2023年创建,并得到巴西计算机学会的支持,旨在填补体育主题问答数据资源的空白。该数据集聚焦全球三大热门运动——足球、美式橄榄球和篮球,基于超过5.4万篇预处理维基页面,构建了包含150余万个问答对的大规模语料库。其核心研究问题在于推动针对体育领域的抽取式问答模型训练与评估,为专业垂直领域的知识理解与检索技术提供了重要的基准资源,对提升领域自适应问答系统的性能具有显著影响力。
当前挑战
QASports数据集致力于解决体育领域开放域问答任务中的关键挑战,即如何从海量非结构化体育文本中精准定位并抽取答案。这一任务面临领域专业术语密集、实体关系复杂以及答案表述多样性等固有难题。在数据集构建过程中,研究人员需应对多源维基数据的异构性整合、大规模语料的清洗与对齐,以及高质量问答对的自动化生成与人工校验等工程挑战。此外,确保不同运动类别间数据的平衡性与代表性,同时维持问答对在上下文中的准确性和一致性,亦是构建过程中需要克服的重要障碍。
常用场景
经典使用场景
在体育信息检索与自然语言处理领域,QASports数据集以其超过150万条问答对的规模,为开放域抽取式问答任务提供了丰富的实验土壤。该数据集基于足球、美式橄榄球和篮球三大运动的维基百科页面构建,研究者通常利用其结构化的问题-上下文-答案三元组,训练和评估模型从长篇体育文档中精准定位答案片段的能力。这种设置模拟了真实世界中用户查询体育知识时,系统需从海量文本中提取关键信息的场景,成为检验模型理解复杂体育术语与上下文关联性的经典基准。
解决学术问题
QASports的出现,有效应对了体育领域专业问答数据稀缺的学术挑战。传统通用问答数据集往往缺乏垂直领域的深度,难以支撑模型学习体育特有的实体关系与事件逻辑。该数据集通过大规模、高质量的标注,使研究者能够深入探索领域自适应、长文档理解以及细粒度答案抽取等核心问题。其意义在于推动了开放域问答技术向专业化、实用化方向发展,为构建高性能体育智能助手奠定了数据基础,并促进了跨领域知识迁移方法的研究。
实际应用
在实际应用层面,QASports数据集直接赋能于智能体育咨询系统和交互式体育知识库的开发。基于该数据集训练的模型,可集成至体育新闻应用、赛事直播平台或球迷社区,为用户提供即时、准确的赛事历史、规则解读、球员数据等问答服务。此外,它也能辅助体育媒体进行内容自动化摘要与信息核查,或为体育教育工具提供知识支撑,从而提升信息获取效率与用户体验,体现了人工智能技术在体育产业数字化进程中的实用价值。
数据集最近研究
最新研究方向
在体育信息检索领域,QASports数据集作为首个大规模体育主题问答资源,正推动开放域抽取式问答技术的前沿探索。该数据集整合了足球、美式橄榄球和篮球三大运动的维基百科文档,其丰富的语境与精准的答案标注为多模态学习与跨领域知识迁移提供了实验基础。当前研究热点聚焦于利用预训练语言模型提升对体育专业术语和时序事件的理解能力,以应对实时体育新闻分析与智能助手的应用需求。这一进展不仅深化了自然语言处理在垂直领域的实践,也为构建动态、可解释的体育知识图谱奠定了数据基石。
以上内容由遇见数据集搜集并总结生成



