five

rungalileo/20_Newsgroups_Fixed

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rungalileo/20_Newsgroups_Fixed
下载链接
链接失效反馈
官方服务:
资源简介:
20_Newsgroups_Fixed数据集是基于原始20 Newsgroups数据集,通过Galileo ML数据智能平台进行修复和改进的版本。修复过程包括识别和修正原始数据集中的错误样本,如垃圾数据和空数据,并引入了一个新的类别None来正确分类这些样本。数据集主要用于文本分类任务,特别是多类分类和主题分类。数据集包含新闻组帖子的文本、对应的新闻组论坛标签以及数据样本的唯一ID。数据被分为训练集和测试集,以减少时间偏差并测试泛化能力。
提供机构:
rungalileo
原始信息汇总

数据集概述

数据集名称

  • 名称: 20_Newsgroups_Fixed

数据集属性

  • 语言: 英语 (en)
  • 许可证: 未知
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 来源: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 多类分类, 主题分类

数据集描述

  • 摘要: 此数据集是20 Newsgroups数据集的修正版本,通过Galileo ML Data Intelligence Platform的帮助进行了错误修复。Galileo帮助我们识别并修复了原始数据集中的关键错误模式,包括不适合任何新闻组标签类别的垃圾数据。
  • 数据结构:
    • 数据实例: 每个数据样本包含新闻组帖子的文本、相应的新闻组论坛标签和数据样本ID。
    • 数据字段:
      • id: 数据样本的唯一数值ID
      • text: 包含新闻组消息文本的字符串
      • label: 指示样本发布的新闻组论坛的字符串
    • 数据分割: 数据分为训练集和测试集,根据消息发布日期之前或之后进行分割,以减少偏差并测试跨时间的泛化能力。
    • 数据类别: 修正后的数据组织为20个新闻组主题加上一个全捕获的"None"类。

数据集创建

  • 注释创建者: 众包
  • 语言创建者: 众包
  • 精选理由: 展示Galileo作为数据智能平台的强大功能。通过Galileo,我们识别并修复了原始新闻组训练数据集中的关键错误模式,并提出了一个新的"None"类来正确分类和修复垃圾数据样本的标签。
  • 错误修复统计:
    • 垃圾样本修复: 718
    • 空样本修复: 445
    • 总样本修复: 1163 (占数据集的6.5%)

使用数据集的考虑

  • 数据集的社会影响: 未提供详细信息
  • 数据集的偏见讨论: 未提供详细信息
  • 其他已知限制: 未提供详细信息

附加信息

  • 数据集管理员: 未提供详细信息
  • 许可证信息: 未知
  • 引用信息: 未提供详细信息
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是20 Newsgroups数据集的修正版本,通过Galileo平台修复了原数据集中6.5%的错误样本,包括垃圾数据和空数据,并新增了'None'类别以处理无效样本。数据集包含18,846条新闻组文本,分为21个类别(20个新闻组主题和'None'类),适用于文本分类任务,数据以CSV格式提供,分为训练集和测试集。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作