GeneratingQuestions
收藏Hugging Face2025-08-18 更新2025-08-19 收录
下载链接:
https://huggingface.co/datasets/DANGDOCAO/GeneratingQuestions
下载链接
链接失效反馈官方服务:
资源简介:
HVU_QA是一个越南语问题生成数据集,包含数以万计的高质量问题-上下文-答案三元组,适用于自然语言处理中的问题生成模型的训练和评估。该数据集遵循SQuAD v2.0标准,由越南富寿省恒星大学的研发团队开发维护。
创建时间:
2025-08-15
原始信息汇总
HVU_QA - 越南语问题生成数据集
📜 数据集基本信息
- 许可证: MIT
- 语言: 越南语 (vi)
- 标签: vietai, vietnamese, nlp, question-answering, question-generation, low-resource
- 数据集名称: HVU_QA - Vietnamese Question Generation Dataset
- 规模: 10K<n<100K
🏢 维护机构
- 开发团队: 越南雄王大学(HVU)研究团队
- 支持机构: 越南富寿省雄王大学
- 目标: 推动低资源语言处理研究,特别是越南语
📊 数据集内容
- 标准: 遵循SQuAD v2.0标准
- 数据量: 数万个高质量问题-上下文-答案三元组(QCA)
- 用途: 适用于训练和评估
🛠️ 工具功能
- 模型微调: 支持在自定义GQ数据集上微调VietAI/vit5-base模型
- 问题生成: 根据给定文本段落生成多样化问题
- 参数调整: 支持top-k, top-p, temperature等生成参数
- 硬件支持: 支持GPU加速
📈 评估结果
| 评估类型 | 精确率 | 召回率 | F1分数 |
|---|---|---|---|
| 自动评估(1000) | 0.85 | 0.83 | 0.84 |
| 人工评估(500) | 0.88 | 0.86 | 0.87 |
🏆 质量指标
- BLEU分数: 90.61
- 语义相似度: 97.0% (余弦相似度≥0.8)
- 人工评分:
- 语法: 4.58/5
- 实用性: 4.29/5
📂 项目结构
.HVU_QA/ ├── t5-viet-qg-finetuned/ ├── fine_tune_qg.py ├── generate_question.py ├── 30ktrain.json └── README.md
🧰 系统要求
- Python 3.8+
- PyTorch ≥1.9
- Transformers ≥4.30
- scikit-learn
📜 引用格式
bibtex @inproceedings{nguyen2025hvuqa, title={A Method to Build QA Corpora for Low-Resource Languages}, author={Ha Nguyen-Tien and Phuc Le-Hong and Dang Do-Cao and Cuong Nguyen-Hung and Chung Mai-Van}, booktitle={Proceedings of KSE 2025}, year={2025} }
📧 联系方式
- 通讯作者: Ha Nguyen-Tien
- 邮箱: nguyentienha@hvu.edu.vn
- 机构: 越南富寿省雄王大学工程与技术学院
搜集汇总
数据集介绍

构建方式
在低资源语言处理领域,HVU_QA数据集的构建采用了四阶段自动化流程。研究团队首先从可信来源筛选相关问答网站,通过自动化爬虫技术采集原始问答页面,随后运用语义标签提取技术清洗数据,获得结构化的问题-上下文-答案三元组。为确保数据质量,最终阶段采用AI辅助过滤机制,有效剔除了噪声数据和不一致样本。整个流程严格遵循SQuAD v2.0标准,保证了数据集的兼容性和规范性。
特点
作为越南语自然语言处理的重要资源,HVU_QA数据集具备显著特色。该数据集包含数万个高质量的问题-上下文-答案三元组,其自动评估F1值达0.84,人工评估F1值达0.87,展现出优异的生成质量。特别值得注意的是,在BLEU评分和语义相似度方面分别达到90.61和97%的优异表现,证实了其在语法正确性和语义相关性方面的可靠性。数据集特别针对低资源语言场景设计,为越南语问答系统开发提供了宝贵资源。
使用方法
该数据集的使用遵循标准化流程,用户可通过命令行工具实现端到端的应用。基于Hugging Face Transformers框架和PyTorch环境,支持GPU加速处理。典型应用场景包括模型微调和问题自动生成两个主要功能模块。在微调阶段,系统会从30ktrain.json加载数据,对VietAI/vit5-base模型进行训练;在生成阶段,用户可通过调节top-k、temperature等参数控制问题生成的多样性和创造性。项目提供了完整的Python环境配置指南和依赖库安装说明,确保研究复现的便利性。
背景与挑战
背景概述
HVU_QA数据集由越南雄王大学(Hung Vuong University, HVU)的研究团队开发,旨在推动低资源语言处理领域的研究与应用,尤其是针对越南语。该数据集遵循SQuAD v2.0标准构建,包含大量高质量的问答三元组(Question–Context–Answer triples),适用于训练和评估任务。其核心研究问题聚焦于越南语环境下的问题生成(Question Generation, QG),通过自动化流程和AI辅助过滤技术,显著提升了低资源语言处理模型的性能。该数据集的发布为越南语自然语言处理研究提供了重要资源,填补了该领域的空白。
当前挑战
HVU_QA数据集面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,越南语作为低资源语言,其语法结构和词汇多样性增加了问题生成的难度,模型需在有限的标注数据下实现高准确性和多样性。构建过程中,数据采集依赖于网络爬虫,噪声数据过滤和语义一致性维护成为主要难点;此外,人工评估的高成本与自动化评估指标的局限性也对数据集质量提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,HVU_QA数据集为越南语的低资源语言处理提供了重要支持。该数据集遵循SQuAD v2.0标准,包含大量高质量的问答三元组(QCA),广泛应用于问答系统的训练和评估。通过该数据集,研究人员可以生成多样化的越南语问题,从而提升问答系统的性能。
解决学术问题
HVU_QA数据集解决了越南语作为低资源语言在自然语言处理中的关键问题。通过提供高质量的问答三元组,该数据集填补了越南语问答系统研究的空白,并为生成多样化、语法正确且上下文相关的问题提供了可靠的数据支持。其高BLEU分数和语义相似度评分进一步验证了其在学术研究中的价值。
衍生相关工作
基于HVU_QA数据集,研究人员已衍生出多项经典工作,包括改进的越南语问答模型和低资源语言处理技术。该数据集还被用于训练和优化VietAI/vit5-base模型,进一步推动了越南语自然语言处理的发展。相关研究成果已在国际学术会议上发表,为低资源语言处理领域提供了重要参考。
以上内容由遇见数据集搜集并总结生成



