Reuters-8|文本分类数据集|新闻数据数据集
收藏
- Reuters-8数据集首次发布,作为Reuters-21578数据集的简化版本,包含8个类别的新闻文本数据。
- Reuters-8数据集首次应用于文本分类研究,成为自然语言处理领域的重要基准数据集之一。
- 随着机器学习和深度学习技术的发展,Reuters-8数据集被广泛用于评估和比较不同算法的性能。
- Reuters-8数据集在多篇高影响力学术论文中被引用,进一步巩固了其在文本分类研究中的地位。
- 随着大数据和人工智能技术的进步,Reuters-8数据集的应用范围扩展到情感分析和信息检索等领域。
- 1Reuters-8: A New Benchmark for Evaluation of Text Classification AlgorithmsUniversity of California, Irvine · 2008年
- 2Text Classification Algorithms: A SurveyUniversity of Alicante · 2019年
- 3Deep Learning for Text Classification: A Comprehensive ReviewUniversity of Waterloo · 2020年
- 4A Comparative Study of Text Classification Techniques on the Reuters-8 DatasetUniversity of Manchester · 2018年
- 5Transfer Learning for Text Classification: A SurveyUniversity of Massachusetts Amherst · 2021年
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
38-Cloud
该数据集包含38幅Landsat 8场景图像及其手动提取的像素级云检测地面实况。数据集被分割成多个384*384的补丁,适合深度学习语义分割算法。训练集有8400个补丁,测试集有9201个补丁。每个补丁包含4个对应的谱通道:红色、绿色、蓝色和近红外。
github 收录
Wafer Defect
该数据集包含了七个主要类别的晶圆缺陷,分别是:BLOCK ETCH、COATING BAD、PARTICLE、PIQ PARTICLE、PO CONTAMINATION、SCRATCH和SEZ BURNT。这些类别涵盖了晶圆在生产过程中可能出现的多种缺陷类型,每一种缺陷都有其独特的成因和表现形式。数据集不仅在类别数量上具有多样性,而且在样本的多样性和复杂性上也展现了其广泛的应用潜力。每个类别的样本均经过精心标注,确保了数据的准确性和可靠性。
github 收录
A00_13081a.jpg
Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7
DataONE 收录