KushT/reuters-21578-train-val-test
收藏Hugging Face2023-08-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KushT/reuters-21578-train-val-test
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
size_categories:
- 1K<n<10K
task_categories:
- text-classification
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
dataset_info:
features:
- name: text
dtype: string
- name: labels
sequence: int64
splits:
- name: train
num_bytes: 10816829
num_examples: 6988
- name: validation
num_bytes: 1178067
num_examples: 781
- name: test
num_bytes: 4513694
num_examples: 3019
download_size: 5088303
dataset_size: 16508590
language:
- en
---
Dataset from [Kaggle](https://www.kaggle.com/datasets/nltkdata/reuters/code)
The split is done on the training set using ```iterative_train_test_split``` from [scikit-multilearn](http://scikit.ml/index.html)
There are the following 90 labels.
'interest',
'groundnut-oil',
'potato',
'palmkernel',
'sun-meal',
'lei',
'cotton-oil',
'sunseed',
'sorghum',
'barley',
'dlr',
'groundnut',
'wpi',
'strategic-metal',
'livestock',
'l-cattle',
'lin-oil',
'gold',
'fuel',
'nzdlr',
'oat',
'soybean',
'hog',
'tin',
'lumber',
'bop',
'soy-oil',
'dfl',
'nkr',
'gas',
'carcass',
'silver',
'coffee',
'gnp',
'crude',
'rapeseed',
'alum',
'copper',
'housing',
'grain',
'cocoa',
'sun-oil',
'rice',
'jobs',
'rubber',
'jet',
'tea',
'retail',
'ship',
'corn',
'meal-feed',
'naphtha',
'sugar',
'rand',
'platinum',
'money-supply',
'yen',
'nickel',
'income',
'cpu',
'copra-cake',
'instal-debt',
'coconut-oil',
'cotton',
'rye',
'palm-oil',
'acq',
'wheat',
'propane',
'dmk',
'reserves',
'rape-oil',
'money-fx',
'heat',
'ipi',
'castor-oil',
'earn',
'iron-steel',
'palladium',
'coconut',
'veg-oil',
'nat-gas',
'pet-chem',
'lead',
'trade',
'cpi',
'oilseed',
'zinc',
'soy-meal',
'orange'
许可证:Apache-2.0
规模类别:1000 < 样本量 < 10000
任务类别:文本分类
配置项:
- 配置名称:默认配置
数据文件:
- 划分集:训练集(train),路径:data/train-*
- 划分集:验证集(validation),路径:data/validation-*
- 划分集:测试集(test),路径:data/test-*
数据集信息:
特征:
- 名称:text,数据类型:字符串(string)
- 名称:labels,数据类型:int64序列
划分集详情:
- 名称:训练集(train),字节数:10816829,样本数:6988
- 名称:验证集(validation),字节数:1178067,样本数:781
- 名称:测试集(test),字节数:4513694,样本数:3019
下载大小:5088303 字节
数据集总大小:16508590 字节
语言:英语
本数据集源自[Kaggle](https://www.kaggle.com/datasets/nltkdata/reuters/code)平台。
本次数据集的划分基于[scikit-multilearn](http://scikit.ml/index.html)库中的`iterative_train_test_split`函数完成。
本次数据集共包含90个分类标签,具体如下:
'interest',
'groundnut-oil',
'potato',
'palmkernel',
'sun-meal',
'lei',
'cotton-oil',
'sunseed',
'sorghum',
'barley',
'dlr',
'groundnut',
'wpi',
'strategic-metal',
'livestock',
'l-cattle',
'lin-oil',
'gold',
'fuel',
'nzdlr',
'oat',
'soybean',
'hog',
'tin',
'lumber',
'bop',
'soy-oil',
'dfl',
'nkr',
'gas',
'carcass',
'silver',
'coffee',
'gnp',
'crude',
'rapeseed',
'alum',
'copper',
'housing',
'grain',
'cocoa',
'sun-oil',
'rice',
'jobs',
'rubber',
'jet',
'tea',
'retail',
'ship',
'corn',
'meal-feed',
'naphtha',
'sugar',
'rand',
'platinum',
'money-supply',
'yen',
'nickel',
'income',
'cpu',
'copra-cake',
'instal-debt',
'coconut-oil',
'cotton',
'rye',
'palm-oil',
'acq',
'wheat',
'propane',
'dmk',
'reserves',
'rape-oil',
'money-fx',
'heat',
'ipi',
'castor-oil',
'earn',
'iron-steel',
'palladium',
'coconut',
'veg-oil',
'nat-gas',
'pet-chem',
'lead',
'trade',
'cpi',
'oilseed',
'zinc',
'soy-meal',
orange
提供机构:
KushT
原始信息汇总
数据集概述
许可证
- Apache 2.0
数据规模
- 1K < n < 10K
任务类别
- 文本分类
配置
- 默认配置
- 数据文件路径:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
- 数据文件路径:
数据集信息
- 特征:
- 文本:字符串类型
- 标签:整数序列类型
- 数据集划分:
- 训练集:
- 字节数:10816829
- 样本数:6988
- 验证集:
- 字节数:1178067
- 样本数:781
- 测试集:
- 字节数:4513694
- 样本数:3019
- 训练集:
- 下载大小:5088303 字节
- 数据集大小:16508590 字节
语言
- 英语
标签
- 数据集包含90个标签,例如:
- interest
- groundnut-oil
- potato
- palmkernel
- sun-meal
- lei
- cotton-oil
- sunseed
- sorghum
- barley
- dlr
- groundnut
- wpi
- strategic-metal
- livestock
- l-cattle
- lin-oil
- gold
- fuel
- nzdlr
- oat
- soybean
- hog
- tin
- lumber
- bop
- soy-oil
- dfl
- nkr
- gas
- carcass
- silver
- coffee
- gnp
- crude
- rapeseed
- alum
- copper
- housing
- grain
- cocoa
- sun-oil
- rice
- jobs
- rubber
- jet
- tea
- retail
- ship
- corn
- meal-feed
- naphtha
- sugar
- rand
- platinum
- money-supply
- yen
- nickel
- income
- cpu
- copra-cake
- instal-debt
- coconut-oil
- cotton
- rye
- palm-oil
- acq
- wheat
- propane
- dmk
- reserves
- rape-oil
- money-fx
- heat
- ipi
- castor-oil
- earn
- iron-steel
- palladium
- coconut
- veg-oil
- nat-gas
- pet-chem
- lead
- trade
- cpi
- oilseed
- zinc
- soy-meal
- orange
搜集汇总
数据集介绍

构建方式
在新闻文本分类领域,Reuters-21578数据集作为经典的多标签分类基准,其构建过程体现了严谨的数据工程原则。该数据集源自路透社新闻文档,经过预处理后形成结构化文本集合。构建者采用scikit-multilearn库中的iterative_train_test_split方法,对原始训练集进行科学划分,生成训练集、验证集和测试集三个独立子集,确保了数据分割的均衡性与可复现性。整个流程注重保持文本原始特征与标签分布的完整性,为后续模型训练提供了可靠的数据基础。
使用方法
使用该数据集时,研究者可通过HuggingFace平台直接加载预处理的训练、验证与测试分割。典型应用流程包括:利用文本字段进行特征提取,结合多标签序列进行模型训练;建议采用分层抽样策略验证模型泛化能力,并注意处理标签共现现象。对于评估环节,可参考精确率、召回率等多标签分类指标,同时关注模型在稀疏标签上的表现。数据集的标准化格式便于与主流深度学习框架集成,支持端到端的文本分类实验设计。
背景与挑战
背景概述
Reuters-21578数据集作为文本分类领域的经典基准,诞生于上世纪80年代末,由路透社与卡内基梅隆大学的研究人员共同构建。该数据集的核心研究问题聚焦于新闻文档的多标签分类,旨在通过机器学习方法自动识别金融、商品及经济相关的主题类别。其影响力深远,不仅推动了文本挖掘与信息检索技术的发展,更为后续自然语言处理模型的评估提供了重要标准,成为学术界与工业界广泛引用的资源。
当前挑战
Reuters-21578数据集面临的挑战主要体现在两个方面:其一,在领域问题层面,多标签分类任务要求模型精准处理类别不平衡与语义重叠,例如区分'crude'与'fuel'等相近主题,这对特征表示与分类器设计提出了较高要求;其二,构建过程中,原始数据的标注一致性、文档分割的标准化以及类别体系的梳理均存在技术难点,需通过迭代分割与清洗来确保数据质量,这些挑战共同塑造了数据集的复杂性与研究价值。
常用场景
经典使用场景
在自然语言处理领域,Reuters-21578数据集作为文本分类任务的基准资源,常被用于评估多标签分类算法的性能。该数据集源自路透社新闻文档,涵盖了金融、商品、经济等多个主题,其丰富的类别标签为研究者提供了模拟真实世界新闻分类场景的理想平台。通过将文本与多达90个标签关联,它支持对复杂文档进行细粒度分类,成为机器学习模型训练与验证的经典选择。
解决学术问题
Reuters-21578数据集有效解决了文本多标签分类中的关键学术挑战,如高维稀疏特征处理和类别不平衡问题。它帮助研究者探索如何从非结构化新闻文本中提取语义信息,并准确分配多个相关标签,从而推动分类算法在精度与效率上的优化。该数据集的意义在于为自然语言处理社区提供了一个标准化测试环境,促进了模型比较与理论进展,对信息检索和知识组织研究产生了深远影响。
实际应用
在实际应用中,Reuters-21578数据集被广泛用于构建自动化新闻分类系统,支持媒体机构对海量新闻进行快速归档和主题筛选。例如,在金融分析领域,它可辅助识别与特定商品或经济指标相关的报道,提升信息检索的准确性和时效性。此外,该数据集还为内容推荐引擎和舆情监控工具提供了训练基础,帮助企业和政府机构高效管理文本数据流。
数据集最近研究
最新研究方向
在金融与商品市场文本分析领域,路透社新闻数据集持续推动多标签分类技术的演进。当前研究聚焦于利用预训练语言模型如BERT与RoBERTa,结合注意力机制优化标签间的关联性建模,以应对经济事件中复杂的语义重叠问题。前沿探索涉及图神经网络与元学习策略,旨在提升对稀有类别如'strategic-metal'或'palladium'的识别精度,同时增强模型在动态市场环境下的泛化能力。这些进展不仅深化了新闻事件对资产价格波动的解释力,也为实时风险预警系统提供了关键技术支持,彰显了数据集在量化金融与自然语言处理交叉领域的持久影响力。
以上内容由遇见数据集搜集并总结生成



