RSS-Feed-6C-dataset
收藏RSS-Feed-6C-dataset
数据集描述
该数据集包含2018年11月从以下RSS源收集的法语和英语文本文档,用于文本分类,文档分为6个类别。
数据来源
英语来源
- BBC Sport (SPORT)
- CNN Sport (SPORT)
- Medical News Today (SANTE_MEDECINE)
- MedlinePlus (SANTE_MEDECINE)
- BBC Science and Environment (SCIENCE)
- Reuters Science News (SCIENCE)
- Reuters Politics News (POLITIQUE)
- BBC Politics (POLITIQUE)
- Reuters Business News (ECONOMIE)
- BBC Business (ECONOMIE)
- Reuters Entertainment (ART_CULTURE)
- BBC Entertainment and Arts (ART_CULTURE)
法语来源
- Sports.fr (SPORT)
- RMC Sport (SPORT)
- Santé Publique France (SANTE_MEDECINE)
- SFMG (SANTE_MEDECINE)
- Futura-Sciences (SCIENCE)
- CEA (SCIENCE)
- Le Figaro Politique (POLITIQUE)
- Le Monde Politique (POLITIQUE)
- Les Echos (ECONOMIE)
- BFM Business (ECONOMIE)
- Culture.gouv.fr (ART_CULTURE)
- Culture.be (ART_CULTURE)
数据组织
数据集包含两个XML文件,每个语言一个文件。每个RSS条目结构如下: xml <item> <title> MP yyyy to face retrial in speed ticket case </title> <description> Peterborough MP XXX denies a charge of perverting the course of justice </description> <text> A Labour MP accused of lying about who was driving her speeding car will face a retrial after a jury failed to reach a verdict ... </text> <tag> POLITIQUE</tag> </item>
分类可以使用所有文本字段的拼接,即 <title>+<description>+<text>。某些字段可能缺失,此时它们将具有空值。
<tag> 字段表示文档所属的类别,属于以下六个类别之一:
- ART_CULTURE
- ECONOMIE/ECONOMY
- POLITIQUE/POLITICS
- SANTE_MEDECINE/HEALTH_MEDICINE
- SCIENCE
- SPORT
引用
如果您使用此数据集,请引用: P-F.Marteau, N. Béchet and O. Ahmia, Similarité par recouvrement de séquence pour la fouille de données séquentielles et textuelles, 19ème édition de la conférence Extraction et Gestion des Connaissances, EGC 2019, Metz, France.




