HEBTEASESUM|自然语言处理数据集|多文档摘要数据集
收藏arXiv2025-11-18 更新2025-11-20 收录
下载链接:
https://edananc/HebTeaseSum
下载链接
链接失效反馈资源简介:
HEBTEASESUM是由耶路撒冷希伯来大学研究团队构建的首个希伯来语多文档摘要数据集,基于历史报纸的前页提要自动提取而成。该数据集包含7,774条高质量摘要-文档对,数据源自数字化报纸档案,通过两阶段流程实现:首先识别前页提要中的关键词短语定位摘要,随后匹配对应版面的完整新闻文档。该资源专门针对低资源语言场景设计,有效解决了希伯来语等语言缺乏高质量摘要训练数据的问题,为跨语言摘要模型评估与优化提供了重要基准。
提供机构:
耶路撒冷希伯来大学
创建时间:
2025-11-18
AI搜集汇总
数据集介绍
构建方式
在低资源语言自然语言处理研究中,构建高质量摘要数据集面临显著挑战。HEBTEASESUM创新性地利用数字化历史报纸资源,通过识别头版导读与对应文章的有机关联构建数据集。该方法采用两阶段自动化流程:首先基于语言特异性关键词识别头版导读文本,随后运用TF-IDF向量相似度计算将导读与内页文章进行匹配。这种构建方式特别适用于资源匮乏的语言环境,仅需少量人工干预即可从报纸数字化档案中提取大量专业编辑撰写的摘要数据。
特点
该数据集展现出多维度独特价值:作为首个希伯来语多文档摘要数据集,其收录的7,774个样本中包含3,869个多文档摘要实例。数据集摘要具有高度抽象性,四元组新颖度比率达0.92,压缩比为0.84,体现了专业编辑的摘要撰写水准。通过领域专家评估验证,导读摘要在连贯性、一致性和流畅性方面均获得4.3分以上(5分制),且摘要长度与信息覆盖度呈正相关。数据来源覆盖1984-1993年间报纸内容,为研究历史语言演变提供了时序维度。
使用方法
该数据集支持多层次研究应用:在模型评估层面,可作为基准测试集评估大语言模型在低资源语言的摘要生成能力,特别适用于分析多文档摘要中的信息覆盖度问题。在算法开发层面,支持端到端摘要系统的训练与优化,其天然的多文档特性为文档聚类与信息融合研究提供实验数据。研究人员可通过图书馆API接口重构数据集,遵循数字遗产使用规范。数据集配套提供OCR后校正版本,确保文本质量满足下游任务需求,同时保留原始噪声数据以供鲁棒性研究。
背景与挑战
背景概述
在自然语言处理领域,低资源语言的文本摘要任务长期面临数据稀缺的困境。耶路撒冷希伯来大学的Noam Dahan等人于2025年提出HEBTEASESUM数据集,通过挖掘数字化历史报纸的前页导语构建了首个希伯来语多文档摘要数据集。该研究创新性地利用报纸编辑撰写的专业摘要内容,覆盖1984至1993年间《Hadashot》报刊的7774个样本,其中近半数支持多文档摘要任务。这项突破性工作为低资源语言的自然语言处理研究提供了新的数据范式,显著拓展了跨语言文本摘要的研究边界。
当前挑战
构建过程面临双重挑战:在领域问题层面,需解决低资源语言摘要数据稀缺与人工标注成本高昂的核心矛盾,同时应对多文档摘要中信息融合与内容一致性的技术难题;在数据构建层面,存在前页导语与对应文章自动匹配的复杂性,包括标题差异、相似主题干扰以及OCR识别错误等问题,此外还需克服历史报纸版面分割噪声与关键短语自动识别的精度控制挑战。
常用场景
经典使用场景
在低资源语言的自然语言处理研究中,HEBTEASESUM数据集为希伯来语文本摘要任务提供了重要支撑。该数据集通过挖掘历史报纸的前页导语,构建了包含7,774个样本的摘要-原文对,其中近半数支持多文档摘要。这种基于专业编辑撰写的有机摘要数据,为研究多语言抽象摘要生成提供了真实场景下的高质量语料。
实际应用
在实际应用层面,HEBTEASESUM支撑了希伯来语新闻摘要系统的开发与优化。基于该数据集训练的模型能够自动生成新闻要点,助力媒体机构实现内容快速分发。同时,其多文档摘要特性为信息聚合应用提供了技术基础,使读者能够高效获取跨报道的核心信息,在新闻阅读和信息检索领域具有显著实用价值。
衍生相关工作
该数据集的创新收集方法启发了多语言摘要研究的新方向。基于前页导语的自动提取技术已被扩展至挪威语、冰岛语等七种语言,形成了跨语言摘要评估基准。相关研究进一步探索了TF-IDF与神经网络模型在低资源环境下的匹配效果,推动了数字化文献在NLP中的创新应用,为历史文本的现代计算分析开辟了新途径。
以上内容由AI搜集并总结生成



