QA_web_crawl_data

Hugging Face2025-08-07 更新2025-08-08 收录

下载链接：

https://huggingface.co/datasets/vnu-llm2023-ftdata/QA_web_crawl_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个不同大小的JSON文件，分别包含8k、26k和512条记录。每条记录包括问题、答案、参考信息、完整参考、链接、难度、问题类型和话题等字段。数据集主要包含与问题相关的信息，适用于问题回答、知识检索等NLP任务。

创建时间：

2025-08-06

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量问答数据集的构建对模型评估至关重要。本数据集采用自动化流程，首先从河内国家大学下属技术大学的官方新闻网站爬取公开资讯文本，随后由领域专家手动定义教育招生相关主题框架。基于预设主题模板和新闻内容，利用Gemini 2.0 Flash大语言模型批量生成问答对，最后通过多轮后处理确保数据质量，包括语法校验、重复项剔除以及答案相关性验证。

特点

该数据集凸显多维度标注特色，每个问答对均包含完整参考文本、来源链接及主题分类，特别设计了三级难度标识和十二类问题类型标签。数据以三种结构化JSON格式呈现，分别提供完整参考、片段参考和分层参考版本，满足不同粒度的模型测试需求。其内容聚焦高校教育招生场景，涵盖课程咨询、注册流程、科研支持等实用主题，为垂直领域大语言模型评估提供精准靶向数据。

使用方法

研究人员可依据评估目标选择相应数据版本：基础版本适用于检索增强生成任务验证，标准版本适合答案准确性和引用完整性测试，增强版本则支持多粒度参考文本对比实验。加载JSON文件后，可通过问题类型、难度等级或主题字段进行数据筛选，结合参考文本与模型输出进行相关性分析。该数据集专为教育场景大语言模型的能力评估设计，尤其适用于检验模型在招生咨询领域的事实性回答和文献溯源性能。

背景与挑战

背景概述

在高等教育数字化转型的浪潮中，越南河内国家大学下属技术大学于2024年推出了QA_web_crawl_data数据集，该数据集由校内研究团队基于官方新闻网站内容构建。其核心研究目标在于解决教育咨询场景下大语言模型的语境化应答能力，通过自动化生成的问答对为招生咨询与学术服务提供精准的数据支持。这一资源显著推动了越南高等教育领域自然语言处理技术的发展，为本地化教育智能系统建立了重要的基准数据。

当前挑战

该数据集致力于解决教育领域问答系统中语境理解与事实一致性挑战，需确保模型在招生政策、课程信息等复杂查询中提供准确且可验证的回应。构建过程中面临多维度挑战：新闻数据的时序性要求答案与政策变动同步，自动化生成需克服语义重复与逻辑模糊问题，而答案与原始文献的严格对齐则需精细的后处理流程以消除幻觉响应。

常用场景

经典使用场景

在教育信息化与自然语言处理交叉领域，该数据集通过自动化生成的问答对为大型语言模型提供精准的验证基准。其核心应用聚焦于教育咨询场景，模型需基于大学官方新闻文本进行知识检索与答案生成，有效模拟真实招生咨询中的信息交互过程。数据集涵盖多难度层级与问题类型，为模型上下文理解与事实一致性评估提供结构化测试环境。

衍生相关工作

基于该数据集衍生的研究主要集中于检索增强生成技术优化，例如结合稠密检索与语义匹配的混合式问答框架。多项工作探索了多跳推理在教育文本中的实现路径，并涌现出针对越南语教育领域的专用评估基准。这些研究进一步推动了跨语言教育大模型的发展，为低资源语言区的教育数字化提供技术范式。

数据集最近研究