five

irekier-corpus

收藏
Hugging Face2026-05-11 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/Vicomtech/irekier-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
IREKIER是一个为巴斯克语和西班牙语设计的易读(Easy Read, ER)文本语料库,旨在为有阅读障碍的人群提供可访问的内容。该数据集基于巴斯克政府透明度门户(Irekia)的新闻文章构建,包含西班牙语(es)和巴斯克语(eu)两种语言。数据以两种对齐粒度提供:文档级对齐(doc-almt)和段落级对齐(paragraph-almt)。段落级数据进一步划分为标准的训练集、验证集和测试集,便于模型开发与评估。在文档级对齐配置中,每个条目包含文档ID(id)、原始复杂文本(src)、以及经过适应的分段版本(tgt.seg)和非分段版本(tgt.no_seg)。在段落级对齐配置中,数据以文档数组形式组织,每个文档包含ID和一个对齐列表(alignments),列表中的每个项包含源复杂段落(src)和对应的适应后段落(tgt)。此外,训练集的对齐项还包含一个相似度分数(score)。易读文本适应结合了文本简化的特点,并强调使用短句、结构清晰的内容以及对复杂概念的解释。该语料库是目前公开的、支持这两种语言的ER文本适应模型训练和评估的最大资源之一,同时也是巴斯克语的第一个此类资源。数据集遵循知识共享署名-非商业性使用-相同方式共享4.0国际许可协议(CC BY-NC-SA 4.0)。

IREKIER is an Easy Read (ER) text corpus designed for Basque and Spanish, aimed at providing accessible content for people with reading difficulties. The dataset is built from news articles on the Basque Governments transparency portal (Irekia) and includes both Spanish (es) and Basque (eu) languages. Data is provided in two alignment granularities: document-level alignment (doc-almt) and paragraph-level alignment (paragraph-almt). The paragraph-level data is further divided into standard training, validation, and test sets to facilitate model development and evaluation. In the document-level alignment configuration, each entry includes a document ID (id), the original complex text (src), and adapted segmented (tgt.seg) and non-segmented (tgt.no_seg) versions. In the paragraph-level alignment configuration, data is organized as an array of documents, each containing an ID and a list of alignments, where each alignment item includes a source complex paragraph (src) and the corresponding adapted paragraph (tgt). Additionally, alignment items in the training set include a similarity score (score). Easy Read text adaptation combines features of text simplification, emphasizing the use of short sentences, well-structured content, and explanations of complex concepts. This corpus is one of the largest publicly available resources for training and evaluating ER text adaptation models supporting these two languages, and it is the first such resource for Basque. The dataset follows the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0).
创建时间:
2026-05-07
搜集汇总
数据集介绍
main_image_url
构建方式
IREKIER语料库的构建源于巴斯克政府透明度门户网站Irekia上发布的易读新闻文章,涵盖西班牙语和巴斯克语两种语言。研究者从该平台收集原始复杂文本及其对应的易读改写版本,并依据两种粒度进行对齐处理:文档级对齐保留整篇文档的完整结构,段落级对齐则通过自动与人工结合的方式将原文与改写文本划分至段落单元,形成精准的平行语料。段落级对齐的训练集中还额外包含了句子相似度分数,以辅助模型学习改写程度,而验证集与测试集则仅保留原文与改写对,确保评估的纯净性。
特点
该数据集具有鲜明的多粒度对齐结构与双语覆盖特点,为文本简化与易读改写任务提供了稀缺的高质量资源。文档级对齐版本包含分段与非分段两种目标形式,适应不同应用需求;段落级对齐则细分为训练、验证与测试三个子集,支持标准化模型开发流程。作为目前公开共享的最大规模西班牙语与巴斯克语易读语料库之一,IREKIER首次为巴斯克语建立了此类资源,填补了低资源语言在易读文本生成领域的数据空白,其构建过程充分考虑了易读文本特有的短句、清晰结构与概念解释等需求。
使用方法
使用者可通过HuggingFace Datasets库加载该语料库,根据任务目标选择相应配置。对于文档级对齐任务,可使用'es-doc-almt'或'eu-doc-almt'配置加载完整文档对;对于段落级对齐,则选用'es-paragraph-almt'或'eu-paragraph-almt'配置,按需取用训练、验证或测试分片。数据以JSON格式存储,每个条目包含文档标识符及对应的源复杂文本与目标易读文本,段落级对齐的条目还包含对齐数组。研究者可基于这些平行语料训练序列到序列模型或评估文本简化系统,亦可提取双语对比模式进行跨语言分析。
背景与挑战
背景概述
在自然语言处理领域,文本简化与易读文本生成是提升信息可及性的关键技术,尤其对于认知障碍或阅读困难的群体而言,其意义尤为深远。IREKIER语料库由Jesús Calleja与Thierry Etchegoyhen于2026年构建,源自巴斯克政府透明度门户网站Irekia的易读新闻文章,涵盖西班牙语与巴斯克语两种语言。该语料库提供了文档级与段落级两种对齐粒度的平行数据,旨在支持易读文本改编模型的训练与评估,是迄今为止公开共享的最大规模的巴斯克语与西班牙语易读资源,也是巴斯克语领域的首创之作。其发布不仅填补了低资源语言在文本简化研究中的空白,更为多语言可及性研究奠定了重要基础。
当前挑战
该数据集所应对的领域挑战在于易读文本改编任务的复杂性:它不仅涉及词汇与句法的简化,还需遵循短句、结构清晰、概念解释等独特规范,远超出通用文本简化的范畴。构建过程中,研究人员面临两大挑战:其一,需在缺乏现成大规模易读参考数据的情况下,从政府门户网站精准提取并对齐复杂原文与适配文本,确保对齐质量;其二,巴斯克语作为形态丰富的低资源语言,其语言特性增加了自动对齐与标注的难度,需手动校验以保证段落级对齐的语义一致性,从而兼顾数据规模与可靠性。
常用场景
经典使用场景
IREKIER语料库是巴斯克语和西班牙语简易阅读文本领域的标志性资源,其核心价值在于为文本简化与可读性适配研究提供高质量的双语平行语料。该数据集通过段落级和文档级两种对齐粒度,将政府公开的复杂原文与其简易版本精准配对,特别适合用于训练和评估端到端的文本简化模型。研究者常利用其段落级对齐子集构建监督学习任务,通过源文本与目标简约文本之间的语义映射关系,探索面向特定阅读障碍群体的自动简化生成技术。
解决学术问题
该数据集主要解决了非英语语言中简易阅读资源匮乏的学术困境,尤其填补了巴斯克语在文本简化领域的空白。针对现有简化语料多聚焦于英语或资源丰富语言的问题,IREKIER提供了涵盖西班牙语和巴斯克语的标准化对齐数据,使研究者能够系统性地探索跨语言简化规律、低资源场景下的迁移学习策略,以及如何将认知可读性理论融入自然语言处理。其公开可用性还推动了多语言简易阅读评估基准的建立,为公平对比不同简化模型性能奠定了数据基础。
衍生相关工作
IREKIER的发布催生了多项延伸研究,包括基于其数据构建的跨语言文本简化基线系统、面向巴斯克语的简易阅读神经机器翻译模型,以及将文档级结构信息融入简化任务的多任务学习框架。部分工作进一步探索了如何利用该语料库中的相似性得分增强简化输出的一致性评估,或通过对比段落级与文档级对齐数据来分析上下文在简化过程中的作用。这些衍生研究共同推动了低资源语言智能文本适配领域的发展,并促使学界重新审视简易阅读与普通文本简化之间的本质差异。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作