rungalileo/20_Newsgroups_Fixed
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rungalileo/20_Newsgroups_Fixed
下载链接
链接失效反馈官方服务:
资源简介:
20_Newsgroups_Fixed数据集是基于原始20 Newsgroups数据集,通过Galileo ML数据智能平台进行修复和改进的版本。修复过程包括识别和修正原始数据集中的错误样本,如垃圾数据和空数据,并引入了一个新的类别None来正确分类这些样本。数据集主要用于文本分类任务,特别是多类分类和主题分类。数据集包含新闻组帖子的文本、对应的新闻组论坛标签以及数据样本的唯一ID。数据被分为训练集和测试集,以减少时间偏差并测试泛化能力。
提供机构:
rungalileo
原始信息汇总
数据集概述
数据集名称
- 名称: 20_Newsgroups_Fixed
数据集属性
- 语言: 英语 (en)
- 许可证: 未知
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源: 原始数据
- 任务类别: 文本分类
- 任务ID: 多类分类, 主题分类
数据集描述
- 摘要: 此数据集是20 Newsgroups数据集的修正版本,通过Galileo ML Data Intelligence Platform的帮助进行了错误修复。Galileo帮助我们识别并修复了原始数据集中的关键错误模式,包括不适合任何新闻组标签类别的垃圾数据。
- 数据结构:
- 数据实例: 每个数据样本包含新闻组帖子的文本、相应的新闻组论坛标签和数据样本ID。
- 数据字段:
- id: 数据样本的唯一数值ID
- text: 包含新闻组消息文本的字符串
- label: 指示样本发布的新闻组论坛的字符串
- 数据分割: 数据分为训练集和测试集,根据消息发布日期之前或之后进行分割,以减少偏差并测试跨时间的泛化能力。
- 数据类别: 修正后的数据组织为20个新闻组主题加上一个全捕获的"None"类。
数据集创建
- 注释创建者: 众包
- 语言创建者: 众包
- 精选理由: 展示Galileo作为数据智能平台的强大功能。通过Galileo,我们识别并修复了原始新闻组训练数据集中的关键错误模式,并提出了一个新的"None"类来正确分类和修复垃圾数据样本的标签。
- 错误修复统计:
- 垃圾样本修复: 718
- 空样本修复: 445
- 总样本修复: 1163 (占数据集的6.5%)
使用数据集的考虑
- 数据集的社会影响: 未提供详细信息
- 数据集的偏见讨论: 未提供详细信息
- 其他已知限制: 未提供详细信息
附加信息
- 数据集管理员: 未提供详细信息
- 许可证信息: 未知
- 引用信息: 未提供详细信息
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是20 Newsgroups数据集的修正版本,通过Galileo平台修复了原数据集中6.5%的错误样本,包括垃圾数据和空数据,并新增了'None'类别以处理无效样本。数据集包含18,846条新闻组文本,分为21个类别(20个新闻组主题和'None'类),适用于文本分类任务,数据以CSV格式提供,分为训练集和测试集。
以上内容由遇见数据集搜集并总结生成



