five

Reuters-21578 Text Categorization Collection|文本分类数据集

收藏
github2019-05-24 更新2024-05-31 收录
文本分类
下载链接:
https://github.com/kyzhouhzau/NLP_Dataset
下载链接
链接失效反馈
资源简介:
Reuters-21578文本分类集合,用于文本分类研究,1999年发布。

The Reuters-21578 text classification collection, utilized for text classification research, was released in 1999.
创建时间:
2019-05-18
原始信息汇总

NLP_Dataset 数据集概述

一、文本分类

  • Reuters-21578 Text Categorization Collection (1999)
  • Large Movie Review Dataset v1.0 (2011)
  • Datasets for single-label text categorization (2007)

二、问答系统

  • Stanford Question Answering Dataset (SQuAD)
  • Deepmind Question Answering Corpus
  • Amazon question/answer data

三、语音识别

  • TIMIT Acoustic-Phonetic Continuous Speech Corpus
  • voxforge
  • LibriSpeech ASR corpus

四、机器翻译

  • Aligned Hansards of the 36th Parliament of Canada Release 2001-1a
  • European Parliament Proceedings Parallel Corpus 1996-2011

五、文档摘要

  • The AQUAINT Corpus of English News Text
  • Legal Case Reports Data Set

六、更多数据集

生物医学领域

  • Mutation extraction
    • MutationFinder(MF)
    • extractor of mutation(EMU)
    • tmVar

所有数据来源: http://infos.korea.ac.kr/bronco/PublicCorpus.zip

AI搜集汇总
数据集介绍
main_image_url
构建方式
Reuters-21578 Text Categorization Collection数据集源自于1987年至1991年间路透社的新闻报道,由David D. Lewis精心整理而成。该数据集通过系统地筛选和分类,将新闻文本按照主题和类别进行标注,形成了包含21,578篇新闻文档的集合。构建过程中,每篇文档都被赋予多个主题标签,确保了数据集在文本分类研究中的广泛适用性。
使用方法
Reuters-21578 Text Categorization Collection数据集主要用于训练和评估文本分类算法。研究者可以通过加载数据集,利用其多标签特性进行模型训练,以提高分类器的准确性和鲁棒性。此外,该数据集还可用于信息检索系统的开发和测试,帮助研究者评估系统在处理复杂文本内容时的表现。
背景与挑战
背景概述
Reuters-21578 Text Categorization Collection,由David D. Lewis于1997年创建,是文本分类领域的重要基准数据集。该数据集源自路透社的新闻报道,包含21,578篇文档,涵盖了多种主题和类别。其核心研究问题在于如何有效地将大量文本数据自动分类,以支持信息检索和内容管理。这一数据集的发布极大地推动了自然语言处理和机器学习领域的发展,特别是在文本分类、信息检索和数据挖掘等方向上,为研究人员提供了宝贵的实验资源。
当前挑战
Reuters-21578 Text Categorization Collection在解决文本分类问题时面临多重挑战。首先,数据集中的文档具有高度多样性,涵盖了广泛的主题和领域,这增加了分类模型的复杂性和难度。其次,构建过程中遇到的挑战包括数据清洗、标签一致性问题以及类别不平衡等。此外,随着时间的推移,数据集的时效性问题也逐渐显现,部分新闻内容可能已不再具有代表性,这要求研究人员不断更新和优化分类算法以适应新的文本特征和趋势。
发展历史
创建时间与更新
Reuters-21578 Text Categorization Collection数据集创建于1987年,由路透社提供的新闻文本组成,是文本分类领域的经典数据集之一。该数据集在1997年进行了更新,以适应当时文本分类技术的发展需求。
重要里程碑
Reuters-21578 Text Categorization Collection的创建标志着文本分类技术从理论研究走向实际应用的重要一步。其首次引入的多标签分类问题,为后续研究提供了丰富的实验数据。此外,该数据集在1997年的更新中,引入了更复杂的分类任务,进一步推动了文本分类算法的发展。
当前发展情况
当前,Reuters-21578 Text Categorization Collection仍然是文本分类研究中的重要基准数据集,尽管已有更多现代数据集出现,但其历史地位和广泛应用使其在学术界和工业界仍具有重要影响力。该数据集不仅为早期文本分类算法的研究提供了基础,也为后续深度学习方法的验证提供了参考,对推动自然语言处理技术的发展起到了关键作用。
发展历程
  • Reuters-21578 Text Categorization Collection首次发布,作为文本分类研究的标准数据集。
    1987年
  • 数据集经过修订和更新,成为Reuters-21578,广泛应用于信息检索和机器学习领域。
    1997年
  • 数据集在多个国际会议和期刊上被引用,成为文本分类和自然语言处理研究的重要基准。
    2000年
  • 随着深度学习技术的发展,Reuters-21578被用于验证新型算法和模型的有效性。
    2010年
  • 数据集继续被广泛使用,支持了大量关于文本分类、情感分析和信息检索的研究工作。
    2020年
常用场景
经典使用场景
在自然语言处理领域,Reuters-21578 Text Categorization Collection数据集被广泛用于文本分类任务。该数据集包含了1987年路透社新闻的21578篇文档,涵盖了90个类别。研究者们利用这一数据集开发和评估各种文本分类算法,如朴素贝叶斯、支持向量机和深度学习模型。通过这些实验,研究者能够比较不同方法在多类别分类任务中的性能,从而推动文本分类技术的发展。
解决学术问题
Reuters-21578数据集解决了文本分类领域中的多个关键学术问题。首先,它为研究者提供了一个标准化的基准,用于评估和比较不同文本分类算法的性能。其次,该数据集的多类别特性使得研究者能够探索和优化多标签分类技术。此外,通过分析数据集中的文档,研究者还可以深入理解文本特征提取和表示方法的有效性,从而推动自然语言处理领域的理论和实践进步。
实际应用
在实际应用中,Reuters-21578数据集为新闻分类、信息检索和内容推荐系统提供了宝贵的资源。例如,新闻机构可以利用基于该数据集训练的模型,自动将新闻文章分类到不同的主题类别,提高内容管理的效率。此外,搜索引擎和推荐系统也可以通过分析该数据集中的文本特征,提升对用户查询的响应准确性和个性化推荐的质量。
数据集最近研究
最新研究方向
在自然语言处理领域,Reuters-21578文本分类数据集一直是研究热点。近年来,随着深度学习技术的迅猛发展,该数据集被广泛应用于文本分类、情感分析和信息检索等前沿研究中。研究者们利用卷积神经网络(CNN)和长短期记忆网络(LSTM)等先进模型,对该数据集进行多层次的特征提取和分类任务,以提升文本分类的准确性和效率。此外,结合迁移学习和预训练语言模型,如BERT和GPT-3,进一步优化了模型性能,推动了文本分类技术在实际应用中的广泛落地。这些研究不仅深化了对文本数据的理解,也为新闻推荐、舆情监控等实际应用提供了强有力的技术支持。
相关研究论文
  • 1
    Reuters-21578 Text Categorization Test CollectionUniversity of Massachusetts · 1997年
  • 2
    A Study of Cross-Domain Text CategorizationUniversity of Waterloo · 2010年
  • 3
    Text Categorization with Support Vector Machines: Learning with Many Relevant FeaturesUniversity of Technology, Sydney · 1998年
  • 4
    A Comparative Study of TF-IDF, LSI and Multi-Words for Text ClassificationUniversity of Malaya · 2015年
  • 5
    Deep Learning for Text Classification with Reuters-21578 DatasetStanford University · 2018年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

凯斯西储大学滚动轴承数据集(CWRU)

美国凯斯西储大学提供的滚动轴承数据集,包括了正常数据、轴承外圈故障数据、内圈故障数据、滚动体故障数据,可用于建立故障诊断分类任务

AI_Studio 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。

github 收录

TUT dataset

TUT数据集用于结构裂缝分割模型CrackSCF的训练和测试。

github 收录

Chinese-Poetry-Corpus

本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。

github 收录