Fake News Challenge|虚假新闻检测数据集|异常检测数据集
收藏
- Fake News Challenge首次提出,旨在通过机器学习技术解决假新闻问题。
- Fake News Challenge正式启动,吸引了全球研究者和开发者的参与,推动了假新闻检测技术的发展。
- Fake News Challenge的成果开始应用于实际的新闻检测系统,提升了新闻内容的可信度。
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
TIMIT
TIMIT 阅读语音语料库的开发旨在为声学语音研究和自动语音识别系统的评估提供语音数据。 TIMIT 包含 630 个人/说话者的 8 种不同美式英语方言的高质量录音,每个人阅读多达 10 个语音丰富的句子。
OpenDataLab 收录
GFS
数据来源采自美国国家环境预报中心的GFS(全球预报系统),该系统每天发布4次全球范围的气象数据,分辨率最高可达到0.25° x 0.25°。GFS数据提供FTP下载方式:https://nomads.ncep.noaa.gov/pub/data/nccf/com/gfs/。每次发布的数据保存在命名为gfs.YYYYMMDDHH的文件夹中。本次需要的数据精度为0.25°(0p25),所以数据的文件名为:gfs.t{ HH }z.pgrb2.0p25.f{ XXX }
地球大数据科学工程 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录