RSS-Feed-6C-dataset

github2024-03-27 更新2024-05-31 收录

下载链接：

https://github.com/pfmarteau/RSS-Feed-6C-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2018年11月从多个RSS源收集的法语和英语文本文档，用于文本分类。文档分为六个类别：艺术文化、经济、政治、健康医学、科学和体育。数据集提供了两个XML文件，分别对应两种语言，每个RSS项目都包含标题、描述、文本和类别标签。

This dataset contains French and English textual documents collected from multiple RSS feeds in November 2018, designed for text classification tasks. The documents are divided into six categories: Art and Culture, Economics, Politics, Health and Medicine, Science, and Sports. The dataset provides two XML files corresponding to the two languages respectively, where each RSS entry includes a title, description, text, and category label.

创建时间：

2018-12-02

原始信息汇总

RSS-Feed-6C-dataset

数据集描述

该数据集包含2018年11月从以下RSS源收集的法语和英语文本文档，用于文本分类，文档分为6个类别。

数据来源

英语来源

BBC Sport (SPORT)
CNN Sport (SPORT)
Medical News Today (SANTE_MEDECINE)
MedlinePlus (SANTE_MEDECINE)
BBC Science and Environment (SCIENCE)
Reuters Science News (SCIENCE)
Reuters Politics News (POLITIQUE)
BBC Politics (POLITIQUE)
Reuters Business News (ECONOMIE)
BBC Business (ECONOMIE)
Reuters Entertainment (ART_CULTURE)
BBC Entertainment and Arts (ART_CULTURE)

法语来源

Sports.fr (SPORT)
RMC Sport (SPORT)
Santé Publique France (SANTE_MEDECINE)
SFMG (SANTE_MEDECINE)
Futura-Sciences (SCIENCE)
CEA (SCIENCE)
Le Figaro Politique (POLITIQUE)
Le Monde Politique (POLITIQUE)
Les Echos (ECONOMIE)
BFM Business (ECONOMIE)
Culture.gouv.fr (ART_CULTURE)
Culture.be (ART_CULTURE)

数据组织

数据集包含两个XML文件，每个语言一个文件。每个RSS条目结构如下： xml <item> <title> MP yyyy to face retrial in speed ticket case </title> <description> Peterborough MP XXX denies a charge of perverting the course of justice </description> <text> A Labour MP accused of lying about who was driving her speeding car will face a retrial after a jury failed to reach a verdict ... </text> <tag> POLITIQUE</tag> </item>

分类可以使用所有文本字段的拼接，即 <title>+<description>+<text>。某些字段可能缺失，此时它们将具有空值。

<tag> 字段表示文档所属的类别，属于以下六个类别之一：

ART_CULTURE
ECONOMIE/ECONOMY
POLITIQUE/POLITICS
SANTE_MEDECINE/HEALTH_MEDICINE
SCIENCE
SPORT

引用

如果您使用此数据集，请引用： P-F.Marteau, N. Béchet and O. Ahmia, Similarité par recouvrement de séquence pour la fouille de données séquentielles et textuelles, 19ème édition de la conférence Extraction et Gestion des Connaissances, EGC 2019, Metz, France.

搜集汇总

数据集介绍

构建方式

RSS-Feed-6C-dataset的构建基于2018年11月从多个RSS源收集的法语和英语文本数据。这些RSS源涵盖了六个主要类别，包括体育、健康医学、科学、政治、经济和艺术文化。每个RSS项的结构包括标题、描述和文本内容，并通过标签字段进行分类。数据集以XML文件形式组织，每个语言对应一个文件，确保了数据的结构化和可扩展性。

使用方法

使用RSS-Feed-6C-dataset时，研究者可以通过解析XML文件获取每个RSS项的标题、描述和文本内容，并将这些字段进行拼接以构建完整的文本输入。分类任务可以通过标签字段进行监督学习，标签字段明确指示了每个文本所属的类别。由于数据集包含多语言文本，研究者可以将其用于跨语言文本分类、多类别文本分类等任务。在使用该数据集时，需遵循相关引用规范，以确保学术研究的透明性和可追溯性。

背景与挑战

背景概述

RSS-Feed-6C-dataset是一个专注于文本分类任务的数据集，由P-F. Marteau、N. Béchet和O. Ahmia等研究人员于2018年11月创建。该数据集收集了来自法语和英语RSS源的多类别文本数据，涵盖六个主要类别：艺术与文化、经济、政治、健康与医学、科学和体育。其核心研究问题在于如何通过多语言文本数据的分类，提升自然语言处理领域中的多类别文本分类性能。该数据集的发布为相关领域的研究提供了重要的数据支持，特别是在多语言文本分类任务中，推动了算法模型的优化与创新。

当前挑战

RSS-Feed-6C-dataset在解决多类别文本分类问题时面临诸多挑战。首先，数据集中包含法语和英语两种语言的文本，语言差异可能导致分类模型的性能波动，尤其是在跨语言分类任务中。其次，数据来源多样且具有版权限制，数据收集与处理过程中需严格遵守版权法规，增加了数据获取的复杂性。此外，部分文本字段可能存在缺失，如标题、描述或正文内容不完整，这对模型的鲁棒性提出了更高要求。最后，如何有效融合多字段文本信息（如标题、描述和正文）以提升分类精度，也是该数据集构建与应用中的一大挑战。

常用场景

经典使用场景

RSS-Feed-6C-dataset广泛应用于文本分类任务中，特别是在多语言环境下。该数据集通过提供法语和英语的RSS源文本，涵盖了体育、健康医学、科学、政治、经济和艺术文化六大类别。研究者通常利用该数据集进行跨语言文本分类模型的训练与评估，以验证模型在不同语言和文化背景下的泛化能力。

解决学术问题

该数据集有效解决了多语言文本分类中的关键问题，尤其是在处理不同语言和文化背景下的文本时，如何保持分类准确性和一致性。通过提供丰富的多类别文本数据，研究者能够深入探讨文本特征提取、分类算法优化以及跨语言迁移学习等核心学术问题，推动了自然语言处理领域的发展。

实际应用

在实际应用中，RSS-Feed-6C-dataset被广泛用于新闻推荐系统、内容过滤和信息检索等领域。通过准确分类不同类别的新闻内容，该数据集帮助构建了更加智能和个性化的信息推送系统，提升了用户体验。此外，该数据集还在舆情分析、市场趋势预测等商业应用中发挥了重要作用。

数据集最近研究