Wiki-CS|图神经网络数据集|基准测试数据集
收藏数据集概述
数据集名称
Wiki-CS
数据集用途
用于基准测试图神经网络(Graph Neural Networks)。
数据集内容
- 节点特征:包含在
dataset/data.json
文件中。 - 邻接列表:包含在
dataset/data.json
文件中。 - 标签:包含在
dataset/data.json
文件中,每个标签对应一个类别名称。 - 数据集分割:提供20种不同的训练分割,以避免对特定小集的训练节点过拟合。
- 元数据:包含在
dataset/metadata.json
文件中,描述节点来源和用于特征的文本内容,以及标签对应的类别名称。
数据集加载
- 通过PyTorch Geometric加载:使用
torch_geometric.datasets.WikiCS
类。 - 从文件加载:参考
experiments/linkprediction/load_wiki.py
和experiments/node_classification/load_graph_data.py
。
实验
- 节点分类:支持模型包括
svm
,mlp
,gcn
,gat
,appnp
。 - 链接预测:包含SVM和VGAE的基准测试。
引用信息
@article{mernyei2020wiki, title={Wiki-CS: A Wikipedia-Based Benchmark for Graph Neural Networks}, author={Mernyei, P{e}ter and Cangea, C{u{a}}t{u{a}}lina}, journal={arXiv preprint arXiv:2007.02901}, year={2020} }

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录