five

[dataset_name]|学术文献分析数据集|图属性文本数据数据集

收藏
github2025-02-18 更新2025-02-26 收录
学术文献分析
图属性文本数据
下载链接:
https://github.com/Graph-COM/LLM_BP
下载链接
链接失效反馈
资源简介:
该仓库包含多个图属性文本数据集,包括cora、citeseer、pubmed等,具体数据集名称在数据准备部分给出。
创建时间:
2025-02-17
原始信息汇总

LLM_BP 数据集概述

数据集基本信息

数据集准备

  • 数据集结构:
    • /dataset/[dataset_name]/
      • processed_data.pt: 存储处理后的数据集,包括图结构和节点标签
      • [encoder]_x.pt: 不同编码器提取的特征矩阵
      • categories.csv: 原始标签名称
      • raw_texts.pt: 每个节点的原始文本
  • 数据集命名规范:
    • cora, citeseer, pubmed, bookhis, bookchild, sportsfit, wikics, cornell, texas, wisconsin, washington
  • 编码器命名规范:
    • sbert, roberta, llmicl_primary, llmicl_class_aware, llmgpt_text-embedding-3-large

数据集下载

数据处理步骤

  1. 生成数据集嵌入:
    • 使用generate_llm.py脚本
    • 参数: [DATASET], [VERSION] (primaryclass_aware)
  2. 生成GPT-4o预测:
    • 使用run_gpt.py脚本
    • 参数: [MODEL], [DATASET], [MODE] (inferenceevaluate)
  3. 预测同质性比率:
    • 使用pred_r.py脚本
    • 参数: [DATASET], [MODEL], [MODE] (inferenceevaluate)
  4. 零样本推理:
    • 使用zero_shot.py脚本
    • 参数: [DATASET], [ENCODER], 4o
  5. 少样本推理:
    • 使用few_shot.py脚本
    • 参数: [DATASET], [ENCODER]

引用

bibtex @article{wang2025model, title={Model Generalization on Text Attribute Graphs: Principles with Large Language Models}, author={Wang, Haoyu and Liu, Shikun and Wei, Rongzhe and Li, Pan}, journal={arXiv preprint arXiv:2502.11836}, year={2025} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于文本属性图上的模型泛化原理,采用大型语言模型进行实现。数据集包含了多个子数据集,每个子数据集由节点文本、图结构和节点标签组成。数据集的构建方式是通过不同的编码器提取特征矩阵,并将这些特征矩阵与图结构相结合,以供后续的模型训练和预测使用。
特点
该数据集的特点在于它结合了文本属性图与大型语言模型,具有丰富的节点文本信息和图结构信息。它涵盖了多种不同领域的文本数据,如科学论文、书籍和历史记录等。此外,数据集支持多种编码器,能够生成不同类型的特征矩阵,以适应不同的模型训练需求。
使用方法
使用该数据集时,首先需要设置运行环境,安装必要的依赖库。然后,根据不同的任务需求,可以使用数据集生成嵌入向量,进行零样本推断、少样本推断或者通过GPT-4o模型生成预测结果。数据集还提供了预计算的嵌入向量和预测结果,可以直接下载使用,以节省计算资源。
背景与挑战
背景概述
LLM_BP数据集是论文《Model Generalization on Text Attribute Graphs: Principles with Large Language Models》的官方实现,由Haoyu Wang、Shikun Liu、Rongzhe Wei和Pan Li等研究人员共同开发。该数据集旨在探索大型语言模型在文本属性图上的模型泛化原理,其研究成果对于理解语言模型在图结构数据上的表现和泛化能力具有重要的学术价值。自发布以来,LLM_BP数据集在文本属性图处理和大型语言模型研究领域产生了广泛影响,为相关领域的研究提供了重要的实验基础。
当前挑战
LLM_BP数据集在构建过程中面临的挑战主要包括:如何有效地将文本属性图与大型语言模型结合,以及如何准确预测和评估模型在图结构数据上的泛化能力。此外,数据集构建过程中还涉及到了数据处理、特征提取和模型预测等多个技术环节,这些环节中的每一个都可能成为研究的挑战,例如确保数据的质量和一致性,以及提高模型预测的准确性和效率。
常用场景
经典使用场景
该数据集为文本属性图领域提供了丰富的实验基础,经典使用场景在于探究大型语言模型在文本属性图上的泛化能力。通过生成节点嵌入表示,进而利用GPT-4o等模型对图结构进行预测或推断,从而评估模型在不同数据集上的性能表现。
解决学术问题
该数据集解决了文本属性图中的节点分类问题,特别是在异质节点分布的情况下,如何提高模型泛化能力。其研究对于理解大型语言模型在图结构数据上的适用性和有效性具有重要的学术价值,为相关领域的模型设计与优化提供了实验依据。
衍生相关工作
基于该数据集,研究者已衍生出多项相关工作,包括对齐文本与图表示的学习方法、基于图神经网络的多模态学习策略等。这些工作进一步拓展了文本属性图的处理框架,并为语言模型与图模型的融合研究提供了新的视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

熟肉制品在全国需求价格弹性分析数据

为更好了解各市对熟肉制品的市场需求情况,本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率,那么熟肉制品需求富有弹性,说明顾客对于熟肉制品价格变化的敏感程度大,弹性越大,需求对价格变化越敏感,本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性,本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集:采集相关熟肉制品在某一时间段全国的的需求数据和价格数据,按照市级进行整理归纳,得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则:对采集得到的数据按照如下公式进行计算:需求弹性系数Ed=-(△Q/Q)÷(△P/P),得到需求弹性系数。式中:Q表示产品的需求量,单位为份;P表示产品的价格,单位为元;△Q表示需求量同比变动值,单位为份;△P表示价格同比变动值,单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析:根据|Ed|的数值可分析该熟肉制品的需求价格弹性。(1)|Ed|=1(单位需求价格弹性),说明需求量变动幅度与价格变动幅度相同;(2)1<|Ed|(需求富有弹性),说明需求量变动幅度大于价格变动幅度;(3)|Ed|<1(需求缺乏弹性),说明需求量变动幅度小于价格变动幅度。

浙江省数据知识产权登记平台 收录