textbook-qa-nepali-multiturn
收藏Hugging Face2025-08-26 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/dineshkarki/textbook-qa-nepali-multiturn
下载链接
链接失效反馈官方服务:
资源简介:
这是一个尼泊尔语的问题回答数据集,包含由Textbook QA agentic pipeline生成的ShareGPT风格的对话。数据集经过验证,确保每个会话都包含非空的问题、答案和重构文本。该数据集可用于问题回答和文本生成的任务。
创建时间:
2025-08-26
原始信息汇总
Textbook QA (Nepali) 数据集概述
基本信息
- 语言:尼泊尔语(ne)、英语(en)
- 名称:Textbook QA (Nepali)
- 许可协议:Apache-2.0
- 任务类别:问答、文本生成
- 标签:sharegpt、qa、synthetic-data、education、nepali
数据集内容
- 数据格式:ShareGPT风格对话
- 生成方式:通过教科书问答代理流程生成
- 验证要求:包含非空问题、答案和重述文本的已验证对话
数据划分
- 训练集(train):包含已验证的对话数据
数据结构
训练集每条记录包含以下字段:
id:唯一标识字符串conversations:包含N条消息的列表(N≥2),交替为human和gptsubject:学科grade:年级chapter_title:章节标题source:来源context_text:上下文文本rephrased_text:重述文本llm_judge_metrics:包含评分的对象average_score:平均分(浮点数)
使用说明
python from datasets import load_dataset ds = load_dataset("dineshkarki/textbook-qa-nepali-multiturn") train = ds["train"]
注意事项
- 对话已验证包含问题、答案和重述文本
- 评估指标可能按设计缺失
- 支持追加和去重功能,可通过
--dedupe_on参数选择去重键:auto(默认):优先使用rephrased_text,其次问答对,最后context_textrephrased_text、qa或context_text
搜集汇总
数据集介绍

构建方式
在教育技术领域,尼泊尔教科书问答数据集通过代理式流水线生成ShareGPT风格的多轮对话。构建过程采用合成数据生成技术,基于教材内容自动产生问题与答案对,并经过严格验证确保每个训练样本包含非空的提问、回答及重述文本。数据整合阶段采用去重策略,通过稳定哈希值比对关键字段如重述文本或上下文,保障数据唯一性与质量。
使用方法
用户可通过HuggingFace的datasets库直接加载数据集,指定训练分割以获取结构化对话数据。典型应用包括训练或评估问答模型、多轮对话生成系统及教育领域适应性研究。数据中的学科分级与章节元数据支持针对性子集筛选,而重述文本与评判指标则为模型优化提供细粒度反馈参照。
背景与挑战
背景概述
在自然语言处理领域,多轮对话系统的研究日益受到关注,特别是在教育资源稀缺的语言环境中。textbook-qa-nepali-multiturn数据集由dineshkarki团队构建,采用Apache 2.0许可证发布,专注于尼泊尔语教育场景的多轮问答任务。该数据集通过智能代理管道生成ShareGPT风格的对话,涵盖特定学科、年级和章节标题的结构化内容,旨在推动低资源语言教育辅助系统的发展。
当前挑战
该数据集核心挑战在于解决尼泊尔语教育场景中多轮问答的语义连贯性与上下文理解问题,包括跨轮次对话的状态跟踪和答案一致性维护。构建过程中面临低资源语言标注数据稀缺的困境,需要克服尼泊尔语语法特性带来的语义表示难题,同时确保生成对话的教育准确性与年龄适应性,并通过去重算法保证数据质量。
常用场景
经典使用场景
在教育技术领域,多轮对话数据集为尼泊尔语教学资源的智能化开发提供了关键支撑。该数据集通过模拟真实师生互动场景,典型应用于构建能够理解学科语境、处理复杂问答链的智能辅导系统,特别适合尼泊尔语地区的个性化教育需求。
解决学术问题
该数据集有效解决了低资源语言教育场景中高质量对话数据稀缺的学术难题,为跨语言问答模型的可信性验证提供了基准。其多轮对话结构和学科标注体系显著提升了模型对教育语境的理解深度,推动了教育公平与语言技术融合研究的实质性进展。
实际应用
在实际应用中,该数据集已成为尼泊尔语地区数字教育平台的核心训练资源,支持智能辅导机器人的部署。通过集成学科知识图谱与多轮对话能力,系统能够为不同年级学生提供动态适应的学科答疑服务,有效缓解偏远地区师资短缺问题。
数据集最近研究
最新研究方向
在尼泊尔语教育技术领域,该多轮对话数据集正推动低资源语言教学模式的智能化转型。研究者聚焦于跨语言知识迁移与本土化适配,通过合成数据生成技术解决尼泊尔语优质教育资源的稀缺性问题。当前前沿探索集中在三个方面:基于大语言模型的课程知识图谱自动构建、多模态语境下的自适应问答机制优化,以及针对喜马拉雅地区多方言特性的语音-文本联合训练框架。这些研究不仅助力联合国可持续发展目标中的优质教育普及,更为南亚地区多语言教育数字化提供了关键技术支撑。
以上内容由遇见数据集搜集并总结生成



