MN-DS

Name: MN-DS
Creator: 卢梭法纳大学
Published: 2023-04-23 22:49:44
License: 暂无描述

arXiv2023-04-23 更新2024-06-21 收录

下载链接：

https://doi.org/10.5281/zenodo.7394850

下载链接

链接失效反馈

官方服务：

资源简介：

MN-DS是由卢梭法纳大学的COPELABS创建的一个包含10,917篇新闻文章的数据集，涵盖了2019年1月1日至12月31日期间的新闻。该数据集通过手动标注，根据IPTC的新闻分类标准，分为17个一级和109个二级类别。MN-DS旨在用于训练机器学习模型，以自动分类新闻文章的主题，适用于新闻结构化、分类和基于发布新闻预测未来事件的研究。

MN-DS is a dataset comprising 10,917 news articles, developed by COPELABS of the University of Rousseau Faner, covering content from news pieces published between January 1, 2019 and December 31, 2019. Manually annotated, this dataset is classified into 17 primary categories and 109 secondary categories in compliance with the IPTC News Classification Standards. MN-DS is designed for training machine learning models to perform automated topic classification on news articles, and supports research in news structuring, news classification and future event prediction based on published news.

提供机构：

卢梭法纳大学

创建时间：

2022-12-23

搜集汇总

数据集介绍

构建方式

在新闻文本分类领域，MN-DS数据集的构建体现了对现有数据资源的精炼与标准化处理。该数据集以NELA-GT-2019为源数据，通过系统化的抽样与标注流程，从超过百万篇新闻文章中筛选出10,917篇代表性样本。构建过程采用国际新闻电信理事会（IPTC）的媒体主题分类法作为标注框架，该分类体系包含17个一级类别与109个二级类别。为确保类别平衡与内容质量，研究团队设计了迭代式标注算法：从原始数据集中随机抽取文章，由标注者根据关键词与全文阅读确定其所属的二级类别，当某类别样本量达到100篇时即停止收录，最终实现每个二级类别均包含约100篇标注文章。这种构建方式既保留了原始数据的多样性，又通过人工筛选提升了分类体系的准确性与一致性。

特点

MN-DS数据集的核心特点在于其层次化多标签分类体系与时效性内容的结合。该数据集严格遵循IPTC媒体主题分类标准，形成了涵盖政治、经济、科技、体育等17个一级类别及109个二级类别的树状结构，其中包含“艺术与娱乐”“大众媒体”“武装冲突”等独特子类，增强了分类粒度。所有文章均采集自2019年度发布的新闻，内容覆盖主流媒体与部分替代性新闻源，既反映了当代新闻语料的语言特征，又避免了历史数据可能存在的时代局限性。数据集中每篇文章均标注了发布日期、来源、作者、全文内容及两级分类标签，并提供了原始链接与采集时间戳，为跨领域研究提供了丰富的元数据支持。这种结构化的设计使其特别适用于层次化分类模型的训练与评估。

使用方法

MN-DS数据集主要应用于自然语言处理领域的新闻分类任务，尤其适合探索层次化分类方法。研究者可基于其两级分类体系，构建从粗粒度到细粒度的分类模型，例如采用OneVsRestClassifier策略结合多种嵌入表示（如TF-IDF、GloVe或DistilBERT）与分类器（如朴素贝叶斯、逻辑回归或支持向量机）。数据集的CSV格式便于直接加载至机器学习框架，文本内容可用于训练词嵌入模型或预训练语言模型的微调。此外，由于数据来源于涵盖真实性标签的NELA-GT数据集，该资源也可扩展至新闻可信度分析、媒体偏见检测等跨学科研究。使用时应遵循Creative Commons许可协议，并参考论文提供的基准实验设计，以确保结果的可比性与可复现性。

背景与挑战

背景概述

在自然语言处理领域，新闻文本分类作为信息组织与知识发现的核心任务，长期依赖于高质量标注数据集的支持。MN-DS数据集由葡萄牙卢索丰纳大学COPELABS实验室的研究团队于2023年构建，旨在解决现有新闻数据集在时效性、分类体系标准化与层次化标注方面的不足。该数据集基于NELA-GT-2019数据源，采用国际新闻电信委员会（IPTC）制定的媒体主题分类标准，对2019年度10,917篇新闻文章进行了精细化的双层标注，涵盖17个一级类别与109个二级类别。其创新性在于首次将标准化新闻分类体系与大规模当代新闻语料相结合，为多层次新闻分类模型提供了可靠的基准数据，显著提升了分类任务的可解释性与领域适应性。

当前挑战

MN-DS数据集致力于解决新闻文本多层次分类中的核心挑战：现有数据集普遍存在分类体系异构、类别重叠以及时效性滞后等问题，导致模型泛化能力受限。具体而言，构建过程中面临双重挑战：在领域问题层面，需克服新闻主题的语义模糊性与层次化标签的依赖性，例如同一事件可能涉及政治、经济等多重维度；在数据构建层面，团队需从海量原始语料中手动筛选并标注文章，确保每个二级类别达到均衡样本量，同时避免边缘性或阴谋论内容干扰数据质量。此外，分类体系的一级类别粒度较粗，需依赖二级标签实现精准语义映射，这对标注一致性与分类算法设计提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，MN-DS数据集为新闻文章的多标签层次分类提供了经典应用场景。该数据集基于IPTC新闻主题分类法构建，涵盖17个一级类别和109个二级类别，为机器学习模型提供了结构化的训练基础。研究者常利用其层次化标签体系，开发能够自动识别新闻主题的算法，尤其适用于处理非正式文体或社交媒体来源的文本，从而提升新闻内容组织的自动化水平。

衍生相关工作

基于MN-DS数据集，研究者已衍生出多项经典工作，主要集中在层次分类方法的创新与模型性能优化。例如，结合DistilBERT等预训练嵌入的混合分类框架被提出，以提升多级标签的预测准确率。同时，该数据集启发了对新闻真实性检测模型的改进研究，通过融合主题特征与语义分析来识别误导性内容。此外，部分工作探索了跨语言新闻分类的迁移学习方案，扩展了数据集的国际应用潜力。

数据集最近研究