ucirvine/reuters21578

Name: ucirvine/reuters21578
Creator: ucirvine
Published: 2023-08-30 17:35:01
License: 暂无描述

Hugging Face2023-08-30 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/ucirvine/reuters21578

下载链接

链接失效反馈

官方服务：

资源简介：

Reuters-21578数据集是文本分类研究中最广泛使用的数据集合之一。它收集自1987年的Reuters金融新闻服务。数据集包含多个配置（如ModApte、ModHayes和ModLewis），每个配置都有不同的数据分割（训练集、测试集和未使用集）。数据集的特征包括文本、主题、地点、人物、组织、交易所、日期和标题等。

The Reuters-21578 dataset is one of the most widely used data collections for text classification research. It was collected from the Reuters financial news service in 1987. The dataset includes multiple configurations (e.g., ModApte, ModHayes, and ModLewis), each with distinct data splits (training set, test set and unused set). The features of the dataset include text, topics, locations, persons, organizations, exchanges, dates and titles, among others.

提供机构：

ucirvine

原始信息汇总

数据集概述

基本信息

数据集名称: Reuters-21578 Text Categorization Collection
数据集ID: reuters-21578
语言: 英语
许可证: 其他

数据集配置

ModApte配置
- 特征:
  - text: 字符串类型
  - text_type: 字符串类型
  - topics: 字符串序列
  - lewis_split: 字符串类型
  - cgis_split: 字符串类型
  - old_id: 字符串类型
  - new_id: 字符串类型
  - places: 字符串序列
  - people: 字符串序列
  - orgs: 字符串序列
  - exchanges: 字符串序列
  - date: 字符串类型
  - title: 字符串类型
- 数据分割:
  - train: 9603个样本，9161179字节
  - test: 3299个样本，2971653字节
  - unused: 722个样本，948244字节
- 下载大小: 8150596字节
- 数据集大小: 13081076字节
ModHayes配置
- 特征: 同ModApte
- 数据分割:
  - train: 20856个样本，19071106字节
  - test: 722个样本，948244字节
- 下载大小: 8150596字节
- 数据集大小: 20019350字节
ModLewis配置
- 特征: 同ModApte
- 数据分割:
  - train: 13625个样本，12994591字节
  - test: 6188个样本，5400506字节
  - unused: 722个样本，948244字节
- 下载大小: 8150596字节
- 数据集大小: 19343341字节

许可证信息

许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
使用限制: 仅限于研究目的

引用信息

详见README文件中的引用部分

贡献者

感谢@jplu, @jbragg, @thomwolf, @mariamabarham, @lhoestq等人的贡献。

搜集汇总

数据集介绍

构建方式

Reuters-21578数据集源自1987年路透社金融新闻专线服务，经过精心筛选和整理，形成了这一广泛用于文本分类研究的经典数据集。数据集的构建过程包括从新闻专线中提取文本，并通过人工或半自动方式对文本进行分类和标注，确保其适用于机器学习模型的训练与评估。数据集提供了多种配置（如ModApte、ModHayes和ModLewis），每种配置在数据划分和样本数量上有所不同，以满足不同研究需求。

特点

Reuters-21578数据集以其丰富的文本内容和多样化的分类标签著称。每条数据包含文本、标题、日期、主题分类（如金融、经济等）以及地理位置、人物和组织等实体信息。数据集的多维度特征使其成为文本分类、信息检索和自然语言处理研究的理想选择。此外，数据集提供了明确的训练集、测试集和未使用集的划分，便于研究者进行模型训练和性能评估。

使用方法

使用Reuters-21578数据集时，研究者可根据具体任务选择合适的配置（如ModApte、ModHayes或ModLewis）。数据集支持多种文本分类任务，可通过加载文本字段和主题标签进行模型训练。对于信息提取任务，可利用数据集中的实体信息（如地点、人物和组织）进行进一步分析。数据集的划分设计（训练集、测试集和未使用集）为模型验证提供了便利，确保研究结果的可靠性和可重复性。

背景与挑战

背景概述

Reuters-21578数据集是文本分类研究领域中最具影响力的数据集之一，由路透社金融新闻服务在1987年收集而成。该数据集由多位研究人员共同构建，包括Chidanand Apte、Fred Damerau、Sholom M. Weiss等，旨在为文本分类算法的开发与评估提供基准数据。其核心研究问题在于如何通过自动化方法对新闻文本进行高效分类，尤其是在金融领域的应用。该数据集的出现极大地推动了文本分类技术的发展，成为自然语言处理领域的重要里程碑。

当前挑战

Reuters-21578数据集在解决文本分类问题时面临多重挑战。首先，文本分类任务本身具有复杂性，尤其是多标签分类问题，即一篇新闻可能涉及多个主题。其次，数据集中存在类别不平衡问题，某些类别的样本数量显著少于其他类别，这可能导致模型在训练过程中偏向于高频类别。此外，数据集的构建过程中也面临挑战，例如如何从原始新闻文本中提取有效的特征，以及如何确保标注的一致性和准确性。这些挑战不仅影响了模型的性能评估，也对数据集的广泛应用提出了更高的要求。

常用场景

经典使用场景

Reuters-21578数据集在文本分类领域具有广泛的应用，尤其是在金融新闻的分类任务中。该数据集包含了1987年路透社金融新闻的文本数据，涵盖了多个主题类别，如收益、货币汇率等。研究人员通常使用该数据集来训练和评估文本分类模型，特别是在多标签分类任务中，模型需要同时预测多个主题标签。

解决学术问题

Reuters-21578数据集解决了文本分类中的多个关键问题，尤其是在多标签分类和主题识别方面。通过该数据集，研究人员能够探索不同分类算法的性能，如朴素贝叶斯、支持向量机和深度学习模型。此外，该数据集还为特征选择、文本表示和模型优化提供了丰富的研究素材，推动了文本分类技术的发展。

衍生相关工作

基于Reuters-21578数据集，许多经典的文本分类研究工作得以展开。例如，Apté等人提出的基于决策规则的文本分类方法，Lewis等人对特征选择和提取的研究，以及Hayes等人开发的基于内容的文本分类系统。这些工作不仅推动了文本分类技术的发展，还为后续的研究提供了重要的参考和基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集