[dataset_name]|学术文献分析数据集|图属性文本数据数据集
收藏LLM_BP 数据集概述
数据集基本信息
- 关联论文: Model Generalization on Text Attribute Graphs: Principles with Large Language Models
- 作者: Haoyu Wang, Shikun Liu, Rongzhe Wei, Pan Li
- 存储库结构:
dataset/
: 包含数据集文件model/
: 存储LLM-BP和LLM-BP (appr.)的模型实现results/
: 包含GPT-4o生成的测试集预测结果和GPT-4o-mini生成的同质性比率预测结果- 多个Python脚本文件用于不同的推理和生成任务
数据集准备
- 数据集结构:
/dataset/[dataset_name]/
processed_data.pt
: 存储处理后的数据集,包括图结构和节点标签[encoder]_x.pt
: 不同编码器提取的特征矩阵categories.csv
: 原始标签名称raw_texts.pt
: 每个节点的原始文本
- 数据集命名规范:
cora
,citeseer
,pubmed
,bookhis
,bookchild
,sportsfit
,wikics
,cornell
,texas
,wisconsin
,washington
- 编码器命名规范:
sbert
,roberta
,llmicl_primary
,llmicl_class_aware
,llmgpt_text-embedding-3-large
数据集下载
- 预计算嵌入和数据集: 可从huggingface repository下载
数据处理步骤
- 生成数据集嵌入:
- 使用
generate_llm.py
脚本 - 参数:
[DATASET]
,[VERSION]
(primary
或class_aware
)
- 使用
- 生成GPT-4o预测:
- 使用
run_gpt.py
脚本 - 参数:
[MODEL]
,[DATASET]
,[MODE]
(inference
或evaluate
)
- 使用
- 预测同质性比率:
- 使用
pred_r.py
脚本 - 参数:
[DATASET]
,[MODEL]
,[MODE]
(inference
或evaluate
)
- 使用
- 零样本推理:
- 使用
zero_shot.py
脚本 - 参数:
[DATASET]
,[ENCODER]
,4o
- 使用
- 少样本推理:
- 使用
few_shot.py
脚本 - 参数:
[DATASET]
,[ENCODER]
- 使用
引用
bibtex @article{wang2025model, title={Model Generalization on Text Attribute Graphs: Principles with Large Language Models}, author={Wang, Haoyu and Liu, Shikun and Wei, Rongzhe and Li, Pan}, journal={arXiv preprint arXiv:2502.11836}, year={2025} }

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
UAV123
从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。
OpenDataLab 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
熟肉制品在全国需求价格弹性分析数据
为更好了解各市对熟肉制品的市场需求情况,本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率,那么熟肉制品需求富有弹性,说明顾客对于熟肉制品价格变化的敏感程度大,弹性越大,需求对价格变化越敏感,本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性,本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集:采集相关熟肉制品在某一时间段全国的的需求数据和价格数据,按照市级进行整理归纳,得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则:对采集得到的数据按照如下公式进行计算:需求弹性系数Ed=-(△Q/Q)÷(△P/P),得到需求弹性系数。式中:Q表示产品的需求量,单位为份;P表示产品的价格,单位为元;△Q表示需求量同比变动值,单位为份;△P表示价格同比变动值,单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析:根据|Ed|的数值可分析该熟肉制品的需求价格弹性。(1)|Ed|=1(单位需求价格弹性),说明需求量变动幅度与价格变动幅度相同;(2)1<|Ed|(需求富有弹性),说明需求量变动幅度大于价格变动幅度;(3)|Ed|<1(需求缺乏弹性),说明需求量变动幅度小于价格变动幅度。
浙江省数据知识产权登记平台 收录