KushT/reuters-21578-train-val-test

Name: KushT/reuters-21578-train-val-test
Creator: KushT
Published: 2023-08-25 12:24:45
License: 暂无描述

Hugging Face2023-08-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/KushT/reuters-21578-train-val-test

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 size_categories: - 1K<n<10K task_categories: - text-classification configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: text dtype: string - name: labels sequence: int64 splits: - name: train num_bytes: 10816829 num_examples: 6988 - name: validation num_bytes: 1178067 num_examples: 781 - name: test num_bytes: 4513694 num_examples: 3019 download_size: 5088303 dataset_size: 16508590 language: - en --- Dataset from [Kaggle](https://www.kaggle.com/datasets/nltkdata/reuters/code) The split is done on the training set using ```iterative_train_test_split``` from [scikit-multilearn](http://scikit.ml/index.html) There are the following 90 labels. 'interest', 'groundnut-oil', 'potato', 'palmkernel', 'sun-meal', 'lei', 'cotton-oil', 'sunseed', 'sorghum', 'barley', 'dlr', 'groundnut', 'wpi', 'strategic-metal', 'livestock', 'l-cattle', 'lin-oil', 'gold', 'fuel', 'nzdlr', 'oat', 'soybean', 'hog', 'tin', 'lumber', 'bop', 'soy-oil', 'dfl', 'nkr', 'gas', 'carcass', 'silver', 'coffee', 'gnp', 'crude', 'rapeseed', 'alum', 'copper', 'housing', 'grain', 'cocoa', 'sun-oil', 'rice', 'jobs', 'rubber', 'jet', 'tea', 'retail', 'ship', 'corn', 'meal-feed', 'naphtha', 'sugar', 'rand', 'platinum', 'money-supply', 'yen', 'nickel', 'income', 'cpu', 'copra-cake', 'instal-debt', 'coconut-oil', 'cotton', 'rye', 'palm-oil', 'acq', 'wheat', 'propane', 'dmk', 'reserves', 'rape-oil', 'money-fx', 'heat', 'ipi', 'castor-oil', 'earn', 'iron-steel', 'palladium', 'coconut', 'veg-oil', 'nat-gas', 'pet-chem', 'lead', 'trade', 'cpi', 'oilseed', 'zinc', 'soy-meal', 'orange'

许可证：Apache-2.0 规模类别：1000 < 样本量 < 10000 任务类别：文本分类配置项： - 配置名称：默认配置数据文件： - 划分集：训练集（train），路径：data/train-* - 划分集：验证集（validation），路径：data/validation-* - 划分集：测试集（test），路径：data/test-* 数据集信息：特征： - 名称：text，数据类型：字符串（string） - 名称：labels，数据类型：int64序列划分集详情： - 名称：训练集（train），字节数：10816829，样本数：6988 - 名称：验证集（validation），字节数：1178067，样本数：781 - 名称：测试集（test），字节数：4513694，样本数：3019 下载大小：5088303 字节数据集总大小：16508590 字节语言：英语本数据集源自[Kaggle](https://www.kaggle.com/datasets/nltkdata/reuters/code)平台。本次数据集的划分基于[scikit-multilearn](http://scikit.ml/index.html)库中的`iterative_train_test_split`函数完成。本次数据集共包含90个分类标签，具体如下： 'interest', 'groundnut-oil', 'potato', 'palmkernel', 'sun-meal', 'lei', 'cotton-oil', 'sunseed', 'sorghum', 'barley', 'dlr', 'groundnut', 'wpi', 'strategic-metal', 'livestock', 'l-cattle', 'lin-oil', 'gold', 'fuel', 'nzdlr', 'oat', 'soybean', 'hog', 'tin', 'lumber', 'bop', 'soy-oil', 'dfl', 'nkr', 'gas', 'carcass', 'silver', 'coffee', 'gnp', 'crude', 'rapeseed', 'alum', 'copper', 'housing', 'grain', 'cocoa', 'sun-oil', 'rice', 'jobs', 'rubber', 'jet', 'tea', 'retail', 'ship', 'corn', 'meal-feed', 'naphtha', 'sugar', 'rand', 'platinum', 'money-supply', 'yen', 'nickel', 'income', 'cpu', 'copra-cake', 'instal-debt', 'coconut-oil', 'cotton', 'rye', 'palm-oil', 'acq', 'wheat', 'propane', 'dmk', 'reserves', 'rape-oil', 'money-fx', 'heat', 'ipi', 'castor-oil', 'earn', 'iron-steel', 'palladium', 'coconut', 'veg-oil', 'nat-gas', 'pet-chem', 'lead', 'trade', 'cpi', 'oilseed', 'zinc', 'soy-meal', orange

提供机构：

KushT

原始信息汇总

数据集概述

许可证

Apache 2.0

数据规模

1K < n < 10K

任务类别

文本分类

配置

默认配置
- 数据文件路径：
  - 训练集：data/train-*
  - 验证集：data/validation-*
  - 测试集：data/test-*

数据集信息

特征：
- 文本：字符串类型
- 标签：整数序列类型
数据集划分：
- 训练集：
  - 字节数：10816829
  - 样本数：6988
- 验证集：
  - 字节数：1178067
  - 样本数：781
- 测试集：
  - 字节数：4513694
  - 样本数：3019
下载大小：5088303 字节
数据集大小：16508590 字节

语言

英语

数据集包含90个标签，例如：
- interest
- groundnut-oil
- potato
- palmkernel
- sun-meal
- lei
- cotton-oil
- sunseed
- sorghum
- barley
- dlr
- groundnut
- wpi
- strategic-metal
- livestock
- l-cattle
- lin-oil
- gold
- fuel
- nzdlr
- oat
- soybean
- hog
- tin
- lumber
- bop
- soy-oil
- dfl
- nkr
- gas
- carcass
- silver
- coffee
- gnp
- crude
- rapeseed
- alum
- copper
- housing
- grain
- cocoa
- sun-oil
- rice
- jobs
- rubber
- jet
- tea
- retail
- ship
- corn
- meal-feed
- naphtha
- sugar
- rand
- platinum
- money-supply
- yen
- nickel
- income
- cpu
- copra-cake
- instal-debt
- coconut-oil
- cotton
- rye
- palm-oil
- acq
- wheat
- propane
- dmk
- reserves
- rape-oil
- money-fx
- heat
- ipi
- castor-oil
- earn
- iron-steel
- palladium
- coconut
- veg-oil
- nat-gas
- pet-chem
- lead
- trade
- cpi
- oilseed
- zinc
- soy-meal
- orange

搜集汇总

数据集介绍

构建方式

在新闻文本分类领域，Reuters-21578数据集作为经典的多标签分类基准，其构建过程体现了严谨的数据工程原则。该数据集源自路透社新闻文档，经过预处理后形成结构化文本集合。构建者采用scikit-multilearn库中的iterative_train_test_split方法，对原始训练集进行科学划分，生成训练集、验证集和测试集三个独立子集，确保了数据分割的均衡性与可复现性。整个流程注重保持文本原始特征与标签分布的完整性，为后续模型训练提供了可靠的数据基础。

使用方法

使用该数据集时，研究者可通过HuggingFace平台直接加载预处理的训练、验证与测试分割。典型应用流程包括：利用文本字段进行特征提取，结合多标签序列进行模型训练；建议采用分层抽样策略验证模型泛化能力，并注意处理标签共现现象。对于评估环节，可参考精确率、召回率等多标签分类指标，同时关注模型在稀疏标签上的表现。数据集的标准化格式便于与主流深度学习框架集成，支持端到端的文本分类实验设计。

背景与挑战

背景概述

Reuters-21578数据集作为文本分类领域的经典基准，诞生于上世纪80年代末，由路透社与卡内基梅隆大学的研究人员共同构建。该数据集的核心研究问题聚焦于新闻文档的多标签分类，旨在通过机器学习方法自动识别金融、商品及经济相关的主题类别。其影响力深远，不仅推动了文本挖掘与信息检索技术的发展，更为后续自然语言处理模型的评估提供了重要标准，成为学术界与工业界广泛引用的资源。

当前挑战

Reuters-21578数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，多标签分类任务要求模型精准处理类别不平衡与语义重叠，例如区分'crude'与'fuel'等相近主题，这对特征表示与分类器设计提出了较高要求；其二，构建过程中，原始数据的标注一致性、文档分割的标准化以及类别体系的梳理均存在技术难点，需通过迭代分割与清洗来确保数据质量，这些挑战共同塑造了数据集的复杂性与研究价值。

常用场景

经典使用场景

在自然语言处理领域，Reuters-21578数据集作为文本分类任务的基准资源，常被用于评估多标签分类算法的性能。该数据集源自路透社新闻文档，涵盖了金融、商品、经济等多个主题，其丰富的类别标签为研究者提供了模拟真实世界新闻分类场景的理想平台。通过将文本与多达90个标签关联，它支持对复杂文档进行细粒度分类，成为机器学习模型训练与验证的经典选择。

解决学术问题

Reuters-21578数据集有效解决了文本多标签分类中的关键学术挑战，如高维稀疏特征处理和类别不平衡问题。它帮助研究者探索如何从非结构化新闻文本中提取语义信息，并准确分配多个相关标签，从而推动分类算法在精度与效率上的优化。该数据集的意义在于为自然语言处理社区提供了一个标准化测试环境，促进了模型比较与理论进展，对信息检索和知识组织研究产生了深远影响。

实际应用

在实际应用中，Reuters-21578数据集被广泛用于构建自动化新闻分类系统，支持媒体机构对海量新闻进行快速归档和主题筛选。例如，在金融分析领域，它可辅助识别与特定商品或经济指标相关的报道，提升信息检索的准确性和时效性。此外，该数据集还为内容推荐引擎和舆情监控工具提供了训练基础，帮助企业和政府机构高效管理文本数据流。

数据集最近研究