textbooks-qa-nepali

Hugging Face2025-08-21 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/dineshkarki/textbooks-qa-nepali

下载链接

链接失效反馈

官方服务：

资源简介：

这个尼泊尔语的数据集包含了ShareGPT风格的对话，这些对话是通过Textbook QA agentic pipeline生成的，旨在用于问题回答和文本生成任务。数据集的每个条目都包括问题、答案和重述文本，以及其他相关信息如科目、年级和章节标题。

创建时间：

2025-08-20

原始信息汇总

Textbook Question-Answering Dataset (Nepali) 数据集概述

基本信息

语言：尼泊尔语（ne）、英语（en）
名称：Textbook QA (Nepali)
许可证：Apache-2.0
任务类别：问答、文本生成
标签：sharegpt、qa、synthetic-data、education、nepali

数据集内容

数据格式：ShareGPT风格对话
生成方式：通过Textbook QA代理流程生成
验证标准：包含非空问题、答案和重述文本的已验证对话

数据划分

train：包含已验证对话的训练集

数据结构（train划分）

每行包含以下字段：

id：唯一字符串标识符
conversations：包含2条消息的列表（human和gpt）
subject：学科主题
grade：年级
chapter_title：章节标题
source：来源
context_text：上下文文本
rephrased_text：重述文本
llm_judge_metrics：包含评分的对象
average_score：平均分数（浮点型）

使用说明

python from datasets import load_dataset ds = load_dataset("dineshkarki/textbooks-qa-nepali") train = ds["train"]

技术说明

法官指标可能按设计缺失
支持附加和去重功能：
- 使用--append true时，上传器会从Hub拉取现有划分
- 使用稳定哈希进行去重，可通过--dedupe_on选择键：
  - auto（默认）：优先使用rephrased_text，回退到Q&A，然后context_text
  - rephrased_text、qa或context_text

搜集汇总

数据集介绍

构建方式

在教育技术领域，尼泊尔教科书问答数据集通过教科书问答代理流程生成ShareGPT风格的对话。构建过程中，采用自动化管道从尼泊尔语教育内容中提取上下文，并合成问答对，确保每个训练样本包含非空的问题、答案和重述文本，同时整合学科、年级和章节元数据以增强教育相关性。

特点

该数据集以尼泊尔语和英语双语呈现，涵盖多学科和多年级的教育内容，每个样本包含结构化对话、上下文文本和重述版本，并附有LLM法官评估指标和平均分数。其独特之处在于支持问答和文本生成任务，并通过去重机制确保数据质量，适用于教育AI模型的精细化训练。

使用方法

用户可通过Hugging Face的datasets库直接加载数据集，访问训练分割以获取对话、元数据和评估指标。典型应用包括训练或评估教育问答模型，利用上下文文本和重述内容优化生成质量，同时可根据学科或年级过滤数据，以适配特定教育场景的需求。

背景与挑战

背景概述

随着自然语言处理技术在教育领域的深入应用，多语言教育资源的智能化需求日益凸显。Textbook QA (Nepali)数据集由研究团队于近期构建，专注于尼泊尔语教育场景的问答任务生成。该数据集通过智能代理流水线自动生成教材相关的对话数据，涵盖多学科、多年级的尼泊尔语教学内容，为低资源语言的教育技术发展提供了重要数据支撑。其创新性地采用ShareGPT风格的对话结构，不仅促进了尼泊尔语自然语言处理模型的发展，也为跨语言教育人工智能系统提供了宝贵的实验数据。

当前挑战

该数据集核心挑战在于解决尼泊尔语作为低资源语言在教育问答系统中的语义理解与生成问题。具体包括：自动生成高质量教育问答对时需确保学术准确性与语言自然度的平衡；处理尼泊尔语复杂的形态变化和语法结构对模型泛化能力的要求；构建过程中面临教材内容多领域适配、跨年级知识体系整合等难题。同时，数据流水线需克服对话逻辑一致性维护、重复数据消除机制设计，以及评估指标缺失情况下的质量保障等工程技术挑战。

常用场景

经典使用场景

在尼泊尔语教育技术领域，该数据集主要应用于构建智能问答系统，通过模拟师生对话场景，为机器学习模型提供高质量的尼泊尔语教学交互数据。其结构化的问题-答案对能够有效训练模型理解学科知识框架，特别适合用于跨语言教育场景中的自动答疑和知识检索任务。

衍生相关工作

基于该数据集衍生了多项重要研究，包括尼泊尔语教育大语言模型的训练优化、跨语言知识迁移算法的改进，以及低资源语言合成数据生成技术的创新。这些工作显著推动了南亚地区语言教育技术的发展，为类似语种的教育智能化提供了可复用的技术范式。

数据集最近研究