iwac-newspaper-articles

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/fmadore/iwac-newspaper-articles

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个新闻文章数据集，包含文章的标题、作者、报纸名称、国家、发布日期等信息。数据集分为三种配置：articles、default和publications，每种配置都包含训练集。此外，数据集还包含文章的描述、主题、地理位置、语言、页数、URL、来源、OCR文本、词汇数量、词汇丰富度、可读性、分词文本、去停用词分词文本、情感标签和情感分数等详细信息。数据集的标签包括报纸、伊斯兰和非洲。

创建时间：

2025-05-23

原始信息汇总

数据集概述

基本信息

语言: 法语 (fr)
许可证: CC-BY-NC-4.0
大小分类: 10K<n<100K
标签: newspaper, Islam, Africa

数据集配置

1. articles 配置

特征:
- 文章ID (o:id)
- 标识符 (identifier)
- URL (url)
- PDF链接 (PDF)
- 缩略图 (thumbnail)
- 标题 (title)
- 作者 (author)
- 报纸名称 (newspaper)
- 国家 (country)
- 发布日期 (pub_date)
- AI描述 (descriptionAI)
- 主题 (subject)
- 空间信息 (spatial)
- 语言 (language)
- 页数 (nb_pages)
- URL (URL)
- 来源 (source)
- OCR文本 (OCR)
- 单词数量 (nb_mots)
- 词汇丰富度 (Richesse_Lexicale_OCR)
- 可读性 (Lisibilite_OCR)
- 词干文本 (lemma_text)
- 无停用词词干文本 (lemma_nostop)
- 情感标签 (sentiment_label)
- 情感得分 (sentiment_score)
数据量:
- 训练集: 10,639 条样本
- 大小: 114,957,979 字节
- 下载大小: 59,633,097 字节

2. default 配置

特征:
- 文章ID (o:id)
- 标识符 (identifier)
- URL (url)
- PDF链接 (PDF)
- 标题 (title)
- 作者 (author)
- 报纸名称 (newspaper)
- 国家 (country)
- 发布日期 (pub_date)
- AI描述 (descriptionAI)
- 主题 (subject)
- 空间信息 (spatial)
- 语言 (language)
- 页数 (nb_pages)
- 页面 (pages)
- URL (URL)
- 来源 (source)
- OCR文本 (OCR)
数据量:
- 训练集: 10,639 条样本
- 大小: 49,169,454 字节
- 下载大小: 26,526,242 字节

3. publications 配置

特征:
- 文章ID (o:id)
- 标识符 (identifier)
- URL (url)
- PDF链接 (PDF)
- 缩略图 (thumbnail)
- 标题 (title)
- 作者 (author)
- 报纸名称 (newspaper)
- 国家 (country)
- 发布日期 (pub_date)
- 期号 (issue)
- 主题 (subject)
- 空间信息 (spatial)
- 语言 (language)
- 页数 (nb_pages)
- URL (URL)
- 来源 (source)
- OCR文本 (OCR)
- 单词数量 (nb_mots)
数据量:
- 训练集: 1,501 条样本
- 大小: 96,967,130 字节
- 下载大小: 58,663,670 字节

搜集汇总

数据集介绍

构建方式

iwac-newspaper-articles数据集聚焦于伊斯兰与非洲相关的法语报纸文献，通过系统化采集与标注构建而成。该数据集整合了10639篇新闻文章与1501份出版物，涵盖标题、作者、出版日期等元数据，并运用OCR技术提取文本内容。数据来源包括PDF文档及其衍生信息，通过多维度标注如主题分类、地理空间标记及情感分析标签，构建了结构化的文献资源库。

使用方法

研究者可通过HuggingFace平台直接加载数据集，按articles/publications等配置选择特定子集。文本数据适用于自然语言处理任务如情感分析、主题建模，元数据字段支持文献计量学研究。建议结合OCR原始文本与标准化后的lemma文本进行对比分析，利用情感评分与可读性指标开展跨文化传播研究。数据遵循CC-BY-NC-4.0协议，需注意合规使用条款。

背景与挑战

背景概述

iwac-newspaper-articles数据集聚焦于法语报纸文章，特别关注伊斯兰与非洲相关主题，由专业研究机构构建并发布于HuggingFace平台。该数据集收录了涵盖多国报纸的丰富文献，包含文章标题、作者、出版日期、OCR文本及情感分析等多维度特征，旨在为跨文化传播、宗教研究和非洲社会动态分析提供数据支持。其构建体现了对非英语语种文本资源的系统性整理，为自然语言处理领域填补了特定文化语境下的研究空白。

当前挑战

该数据集面临的核心挑战在于多语言OCR文本的质量控制，历史文献的数字化过程中易出现字符识别错误，影响后续的词汇丰富度和可读性分析。不同报纸的版面设计和印刷质量差异进一步加剧了数据清洗难度。情感标签的标注依赖于算法自动生成，其准确性受限于法语情感词典的覆盖范围。此外，伊斯兰相关术语的文化特异性要求领域知识介入校验，以避免语义偏差。数据集的地理分布不均衡也可能导致区域代表性不足的问题。

常用场景

经典使用场景

在跨文化传播研究中，iwac-newspaper-articles数据集因其聚焦伊斯兰与非洲主题的法语报刊文献而独具价值。该数据集最经典的应用场景体现在对新闻文本的多维度分析上，研究者可通过OCR文本、情感标签和词汇丰富度等特征，系统考察媒体报道的叙事框架与立场倾向。

解决学术问题

该数据集有效解决了宗教传播研究中语料匮乏的瓶颈问题，其包含的时空元数据与主题标注为追踪伊斯兰文化在非洲的传播轨迹提供了实证基础。通过情感分析和词汇计量指标，学者能够量化研究媒体报道中的文化偏见，这对解构西方中心主义的传播范式具有方法论突破意义。

实际应用

在实际应用层面，该数据集支持媒体机构进行历史档案数字化建设，其结构化存储的报刊元数据便于构建知识图谱。政府部门可借助其地域-主题关联特征监测区域舆情，而教育机构则利用多语言文本开发跨文化交际的教材语料库。

数据集最近研究