touch-rugby-comprehensive-qa

Name: touch-rugby-comprehensive-qa
Creator: Trelis
Published: 2025-04-23 23:38:06
License: 暂无描述

Hugging Face2025-04-23 更新2025-04-24 收录

下载链接：

https://huggingface.co/datasets/Trelis/touch-rugby-comprehensive-qa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含文档内容、问题、答案等字段，适用于文本问答和摘要生成的任务。数据集分为训练集、评估集和评估镜像集，可用于模型的训练和评估。

This dataset contains fields including document content, questions, and answers, and is applicable to tasks such as text question answering and summary generation. The dataset is divided into three subsets: a training set, an evaluation set, and an evaluation mirror set, which can be used for model training and evaluation.

提供机构：

Trelis

创建时间：

2025-04-23

原始信息汇总

数据集概述

基本信息

数据集名称: Trelis/touch-rugby-comprehensive-qa
下载大小: 343310 字节
数据集大小: 3951499 字节

数据集特征

document: 字符串类型，表示文档内容
chunk_id: 整型，表示块ID
chunk_text: 字符串类型，表示块文本
is_table: 布尔型，表示是否为表格
summary: 字符串类型，表示摘要
question: 字符串类型，表示问题
answer: 字符串类型，表示答案
evaluation_criteria: 字符串类型，表示评估标准
difficulty: 整型，表示难度
category: 字符串类型，表示类别
model: 字符串类型，表示模型
original_question: 字符串类型，表示原始问题
original_answer: 字符串类型，表示原始答案

数据集划分

train:
- 样本数量: 244
- 大小: 3069101 字节
eval:
- 样本数量: 32
- 大小: 440780 字节
eval_mirror:
- 样本数量: 32
- 大小: 441618 字节

配置文件

默认配置:
- train: 数据文件路径为 data/train-*
- eval: 数据文件路径为 data/eval-*
- eval_mirror: 数据文件路径为 data/eval_mirror-*

搜集汇总

数据集介绍

构建方式

在触式橄榄球运动知识图谱构建领域，该数据集采用多维度结构化方法进行构建。研究人员首先收集原始文档并进行分块处理，每块文本赋予唯一chunk_id标识，同时标注是否为表格数据。随后通过专业标注团队生成文本摘要、问题及答案对，并设置评估标准。数据构建过程中特别注重难度等级和类别的划分，同时保留模型生成的原始问答对作为参照，形成包含244条训练样本和32条验证样本的完整体系。

特点

该数据集展现出鲜明的专业运动知识库特征，其核心价值在于精细标注的问答对结构和多维元数据体系。每个数据样本包含原始文本块、人工提炼的摘要、专业问题及答案，并附带难度评分和类别标签。独特的evaluation_criteria字段为答案质量评估提供标准化依据，而is_table标识则实现了文本与表格数据的区分处理。数据集采用三划分结构，包含训练集和两个验证集，为模型训练与评估提供可靠基准。

使用方法

针对触式橄榄球运动知识问答系统的开发，该数据集支持端到端的训练与评估流程。研究人员可直接利用question-answer对进行监督学习，结合evaluation_criteria优化模型输出质量。difficulty字段支持分级训练策略，而category标签便于进行专业知识领域的针对性优化。验证集的镜像设计允许进行模型鲁棒性测试，原始问答对则为生成式模型提供对比参照。数据分块结构特别适合采用检索增强生成技术，提升问答系统的准确性。

背景与挑战

背景概述

随着人工智能技术在体育领域的深入应用，针对特定运动项目的知识问答数据集需求日益凸显。touch-rugby-comprehensive-qa数据集应运而生，专注于触式橄榄球这一新兴运动的专业知识问答。该数据集由专业团队构建，包含了丰富的文档片段、问题-答案对以及评估标准，旨在为触式橄榄球领域的自然语言处理任务提供高质量的训练和评估资源。其多维度的特征设计，如难度分级、类别标注和模型来源等，体现了对运动知识结构化表达的深入思考，为体育智能化发展提供了重要的数据支撑。

当前挑战

构建触式橄榄球专业问答数据集面临双重挑战。在领域问题层面，如何准确捕捉这项运动的复杂规则体系和战术内涵，并将其转化为可计算的问题-答案形式，需要深厚的领域专业知识。运动术语的多义性和情境依赖性增加了语义理解的难度。在构建过程层面，数据采集受到小众运动文献稀缺性的限制，需要从分散的非结构化资料中提取有效信息。同时，确保问题-答案对的准确性和评估标准的客观性，要求构建者具备专业的标注能力和质量控制机制。

常用场景

经典使用场景

在体育科学和自然语言处理交叉领域，touch-rugby-comprehensive-qa数据集通过结构化文档与问答对的形式，为研究者提供了研究触式橄榄球规则解析与知识提取的标准化测试平台。其多维度标注特征支持从文本理解到逻辑推理的多层次任务验证，特别适合用于评估模型在体育专项领域的语义理解能力。

衍生相关工作

基于该数据集衍生的经典工作包括RuleBERT等专项领域预训练模型，其通过迁移学习框架将触式橄榄球知识注入通用语言模型。问答对生成技术方面催生了DiffQG难度可控问题生成算法，而评估标准则被AdaptiveReferee决策支持系统采纳为核心测试基准。

数据集最近研究