RAG_eu

Name: RAG_eu
Creator: HiTZ zentroa
Published: 2025-12-15 19:25:11
License: 暂无描述

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/HiTZ/RAG_eu

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个巴斯克语（eu）的领域特定数据集集合，包含三个领域的任务：新闻文章、议会讨论和法律文本。数据集适用于三种任务评估：领域分类（DC）、问题可回答性预测（QAP）和信息检索（IR）。数据集旨在作为评估面向巴斯克语的模型的基准，包括检索增强生成（RAG）系统，适用于低资源NLP研究。数据集结构按任务和领域划分，并提供了示例用法。

提供机构：

HiTZ zentroa

创建时间：

2025-12-15

原始信息汇总

数据集概述

基本描述

数据集名称: RAG_eu
语言: 巴斯克语 (eu)
许可协议: Apache-2.0 (数据集卡中同时注明为 CC-BY 4.0)
多语言性: 单语
标注来源: 专家生成
源数据集: 原始
任务类别: 文本分类

数据集目的与用途

本数据集是一个巴斯克语领域特定数据集的集合，专为模型评估而设计。
旨在作为评估面向巴斯克语模型（包括检索增强生成系统）的基准，适用于多样化的领域特定场景。
适用于评估模型在分类和检索任务上的性能，为低资源自然语言处理研究提供一个全面的框架。

数据内容与领域

数据集涵盖三个领域：
1. 新闻文章
2. 议会演讲
3. 法律文本
包含三种任务类型：
1. 领域分类：预测给定文本片段的领域。
2. 问题可回答性预测：判断给定上下文是否能回答问题。
3. 信息检索：为给定查询检索相关段落/文档。

数据集结构

数据集按任务和领域进行组织，包含以下配置：

配置与数据文件

DC 配置：
- eval 分割：DC.jsonl
documents 配置：
- docs 分割：documents.jsonl
QAP 配置：
- bopv 分割：QAP/bopv.jsonl
- news 分割：QAP/news.jsonl
- parl 分割：QAP/parl.jsonl
IR 配置：
- bopv 分割：IR/bopv.jsonl
- news 分割：IR/news.jsonl
- parl 分割：IR/parl.jsonl

数据结构字段

领域分类：
- query：待分类的文本。
- domain：领域标签（‘parleamentary discourses’，‘legal texts’，‘journalistic texts’）。
问题可回答性预测：
- text_id：文档/段落的ID。
- query：问题文本。
- answerable：true 或 false。
信息检索：
- query：搜索查询。
- text_id：文档ID。
文档集合（用于QAP和IR任务）：
- text_id：文档/段落的ID。
- text：文档文本。
- summary：文本摘要。

使用示例

可通过 load_dataset("HiTZ/rag_eu") 加载数据集，并按配置和分割访问不同任务的数据。

附加说明

各任务相互独立，但共享相同的领域和上下文（文档）。
适用于评估跨领域泛化能力和低资源巴斯克语RAG系统。

搜集汇总

数据集介绍

构建方式

在巴斯克语这一低资源语言环境中，RAG_eu数据集的构建体现了对多领域文本的系统性整合。该数据集通过专家标注的方式，从新闻文章、议会辩论和法律文本三个专业领域采集原始语料，并依据不同任务需求进行结构化处理。对于领域分类任务，文本片段被赋予相应的领域标签；在问题可答性预测任务中，专家根据上下文对问题的可回答性进行二元判定；信息检索任务则构建了查询与文档之间的关联索引。整个构建过程注重领域多样性与任务独立性，为巴斯克语自然语言处理研究提供了高质量的基准数据。

使用方法

研究人员可通过Hugging Face的datasets库便捷加载RAG_eu数据集，并依据不同任务和领域进行灵活调用。对于领域分类任务，直接访问DC配置即可获得待分类文本及其标签；问题可答性预测任务需按bopv、news、parl等子集分别加载QAP数据，获取问题、上下文及可答性标注；信息检索任务则通过IR配置获取查询与相关文档的对应关系。数据集提供的统一文档集合可作为检索任务的背景知识库。这种模块化设计允许研究者针对特定领域或任务组合进行实验，为巴斯克语模型评估提供了标准化操作流程。

背景与挑战

背景概述

在自然语言处理领域，低资源语言的模型评估长期面临数据稀缺的困境。巴斯克语作为一种孤立语言，其数字资源尤为匮乏，制约了相关技术的研究与发展。RAG_eu数据集由HiTZ研究中心构建，旨在为巴斯克语提供跨领域的基准评估工具。该数据集聚焦于新闻文章、议会辩论和法律文本三个专业领域，集成了领域分类、问题可答性预测和信息检索三项核心任务，为检索增强生成系统及其他自然语言处理模型提供了全面的性能评测框架。其创建不仅填补了巴斯克语评估资源的空白，也推动了低资源语言处理技术的进步。

当前挑战

该数据集致力于解决巴斯克语在专业领域中的自然语言处理挑战，包括跨领域文本分类、复杂语境下的问题可答性判断以及精准的信息检索。这些任务要求模型深入理解专业术语和领域特定的语言结构，对低资源语言模型构成了显著考验。在构建过程中，研究人员面临专业语料收集与标注的困难，需确保法律、新闻和议会文本的准确性与代表性。同时，构建多任务评估体系需维持任务间的一致性与数据的完整性，这对数据集的工程设计与质量控制提出了较高要求。

常用场景

经典使用场景

在巴斯克语自然语言处理研究中，RAG_eu数据集为评估检索增强生成系统提供了多领域的基准平台。该数据集整合了新闻文章、议会辩论和法律文本三个专业领域，支持领域分类、问题可答性预测和信息检索任务。研究者通常利用其结构化任务设计，测试模型在跨领域场景下的泛化能力，特别是在低资源语言环境下，如何有效处理专业文本的语义理解和信息定位问题。

解决学术问题

该数据集主要解决了巴斯克语作为低资源语言在自然语言处理中的评估难题。通过提供多领域标注数据，它使研究者能够系统评估模型在专业文本分类、问答系统可靠性判断以及跨文档检索任务中的性能。其意义在于填补了巴斯克语领域特定任务评估资源的空白，为低资源语言处理技术的公平比较提供了标准化框架，推动了多语言NLP研究的均衡发展。

实际应用

在实际应用层面，RAG_eu数据集可直接支持巴斯克语智能系统的开发与优化。例如，在构建法律咨询自动化工具时，可利用其法律文本子集训练文档检索模块；媒体机构可借助新闻领域数据改进信息过滤系统；政府机构则能基于议会辩论数据开发政策分析助手。这些应用显著提升了巴斯克语地区公共服务和商业活动的信息处理效率。

数据集最近研究