ARTeLab/fanpage
收藏Hugging Face2024-10-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ARTeLab/fanpage
下载链接
链接失效反馈官方服务:
资源简介:
Fanpage数据集包含从Fanpage获取的新闻文章。数据集有两个特征:source(输入新闻文章)和target(文章摘要)。支持的任务包括抽象摘要和摘要生成,数据集的语言为意大利语。
The Fanpage Dataset comprises news articles collected from Fanpage. The dataset has two core features: `source` (the input news article) and `target` (the article summary). Supported tasks include abstractive summarization and summarization generation, and the language of the dataset is Italian.
提供机构:
ARTeLab
原始信息汇总
数据集概述
数据集名称
- Fanpage 数据集
数据集内容
- 包含从 Fanpage 获取的新闻文章及其摘要。
数据集特征
source: 新闻文章原文。target: 文章的摘要。
任务类型
abstractive-summarization,summarization
语言
- 意大利语
数据集大小
- 10K<n<100k
数据集来源
- 原始数据
引用信息
@Article{info13050228, AUTHOR = {Landro, Nicola and Gallo, Ignazio and La Grassa, Riccardo and Federici, Edoardo}, TITLE = {Two New Datasets for Italian-Language Abstractive Text Summarization}, JOURNAL = {Information}, VOLUME = {13}, YEAR = {2022}, NUMBER = {5}, ARTICLE-NUMBER = {228}, URL = {https://www.mdpi.com/2078-2489/13/5/228}, ISSN = {2078-2489}, DOI = {10.3390/info13050228} }
搜集汇总
数据集介绍

构建方式
在意大利语自然语言处理领域,数据资源的稀缺性促使研究者们积极探索新的数据集构建途径。ARTeLab/fanpage数据集源自意大利新闻网站Fanpage,通过精心采集原始新闻文章及其对应的人工撰写摘要,构建了一个专为抽象摘要任务设计的语料库。该构建过程确保了源文本与摘要之间的语义对应关系,为模型训练提供了高质量的平行数据。
特点
该数据集以意大利语单语形式呈现,规模介于一万至十万样本之间,专注于新闻领域的文本摘要任务。其核心特征在于提供了完整的“源文章-目标摘要”配对结构,支持抽象式摘要的模型训练与评估。作为当前意大利语摘要任务中为数不多的公开资源之一,该数据集填补了低资源语言在该研究方向的空白,具有重要的学术价值。
使用方法
研究人员可利用该数据集直接训练或微调预训练语言模型,如T5-base或mBART,以提升意大利语新闻摘要的生成能力。使用时应遵循CC-BY-4.0许可协议,并注意数据可能存在的领域偏差。该数据集适用于端到端的摘要模型开发,为意大利语自然语言处理研究提供了切实可行的实验基础。
背景与挑战
背景概述
在自然语言处理领域,文本摘要技术旨在从冗长文档中提取核心信息,生成简洁而准确的摘要。针对意大利语这类资源相对匮乏的语言,相关研究长期面临数据稀缺的挑战。2022年,由Nicola Landro、Ignazio Gallo、Riccardo La Grassa和Edoardo Federici等研究人员组成的ARTeLab团队,从意大利新闻网站Fanpage收集并构建了fanpage数据集。该数据集专门用于抽象文本摘要任务,包含新闻文章及其对应的人工摘要,旨在推动意大利语自动摘要模型的发展,填补该语言在抽象摘要任务上的数据空白,为后续研究提供了重要的基准资源。
当前挑战
fanpage数据集致力于解决意大利语抽象文本摘要的挑战,其核心在于如何使模型理解并凝练新闻文本的语义,生成流畅且信息完整的摘要。由于意大利语属于低资源语言,现有摘要模型往往依赖英语数据训练,导致跨语言迁移时面临语义损失和语法不匹配的问题。在数据构建过程中,研究人员需从Fanpage网站采集原始新闻,并确保摘要的质量与一致性,这涉及人工标注的严谨性和数据清洗的复杂性。此外,新闻文本的多样性和时效性要求数据集能够覆盖广泛的主题,同时避免引入个人敏感信息或社会偏见,这些因素共同构成了数据集构建与应用中的多重挑战。
常用场景
经典使用场景
在自然语言处理领域,意大利语文本摘要任务长期面临数据稀缺的挑战。ARTeLab/fanpage数据集通过提供意大利新闻文章及其人工摘要,为抽象摘要模型训练提供了关键资源。该数据集常用于训练和评估基于Transformer的序列到序列模型,如T5和mBART,以生成流畅且信息保留度高的意大利语摘要。研究人员利用其源文本与目标摘要的配对结构,探索模型在低资源语言上的迁移学习能力,推动意大利语自动摘要技术的发展。
解决学术问题
该数据集有效缓解了意大利语作为低资源语言在抽象摘要研究中数据匮乏的困境。通过提供高质量的人工标注新闻摘要对,它支持研究者系统评估模型在语义压缩、信息抽取和语言生成方面的性能。其存在使得对比分析基于翻译数据训练与原生数据训练模型的差异成为可能,揭示了文化语境和语言特性对摘要质量的影响,为低资源语言自然语言处理提供了实证基础。
衍生相关工作
基于此数据集衍生的经典工作包括采用T5-base和mBART模型进行意大利语抽象摘要的基准研究。相关论文《Two New Datasets for Italian-Language Abstractive Text Summarization》系统评估了模型在原生数据与翻译数据上的性能差异,证实了原生数据集的有效性。这些工作进一步激发了针对意大利语预训练模型的优化,以及跨语言摘要迁移学习策略的探索,形成了低资源语言摘要研究的一个小型技术脉络。
以上内容由遇见数据集搜集并总结生成



