motif-qa
收藏Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/naos-ku/motif-qa
下载链接
链接失效反馈官方服务:
资源简介:
MotifQA是一个合成图问答数据集,专注于检测小型Barabási–Albert图中的五节点‘房屋’模式。每个示例包含一个文本提示、一个答案句子、一个图结构的明确描述,以及当存在时,组成模式的节点列表。该数据集支持两种任务:确定图中是否存在目标模式,以及利用提供的图结构定位形成模式的节点。
创建时间:
2025-10-29
原始信息汇总
MotifQA数据集概述
数据集摘要
MotifQA是一个合成的图问答基准数据集,专注于检测小型Barabási–Albert图中是否存在五节点房屋模体。每个示例包含文本提示与答案句子的配对、作为模体高亮的节点列表(当存在时)以及显式图描述(节点和无向边对)。图包含5到20个未标记节点;每个无向边以升序节点标识符列出一次。
支持任务
- 二元问答:识别提示是否描述包含目标模体的图
- 图模体检测:利用提供的图结构定位形成模体的节点
子集配置
- identify_nodes(默认):当模体存在时,答案以"Yes, there is a motif with nodes 0, 5, 7, 9, 10."格式重述模体位置;否则返回"No, there is no motif."
- yes_no:答案简化为二元决策,返回"Yes, there is a motif."或"No, there is no motif."
语言
英语
数据集结构
数据字段
- prompt:关于房屋模体存在性的自然语言问题
- response:短格式答案句子,措辞取决于所选子集
- motif_nodes:构成房屋模体的节点索引列表;模体不存在时为空列表
- nodes:图中所有节点标识符的枚举
- edges:无向边列表;每条边以[min_node, max_node]格式出现一次
- nnodes:节点总数(5-20个)
- nedges:无向边总数
数据划分
| 子集 | 划分 | 总数 | 正例 | 负例 |
|---|---|---|---|---|
| identify_nodes | 训练集 | 1000 | 493 | 507 |
| identify_nodes | 验证集 | 500 | 258 | 242 |
| identify_nodes | 测试集 | 500 | 249 | 251 |
| yes_no | 训练集 | 1000 | 493 | 507 |
| yes_no | 验证集 | 500 | 258 | 242 |
| yes_no | 测试集 | 500 | 249 | 251 |
数据创建
数据来源
所有示例均使用PyTorch Geometric原语合成生成:
- 正样本从Barabási–Albert基础图开始,节点数从5-15均匀采样,并注入单个房屋模体
- 负样本使用相同过程,节点数从5-20采样,无模体
生成流程
- 创建正负图池
- 通过自定义节点洗牌变换随机洗牌节点索引
- 将图转换为文本问答格式
- 洗牌并划分为训练/验证/测试分区
- 将每个子集序列化为JSON Lines文件
使用注意事项
- 图规模较小且限于单一模体类
- 边以无向连接存储,节点标识符已排序
- 自然语言响应为模板化句子,语言多样性有限
许可证
MIT许可证
引用
bibtex @software{motifqa2025, author = {Naoki Shimoda}, title = {MotifQA: Synthetic Graph Motif Question Answering Dataset}, year = {2025}, url = {https://github.com/naoki/motif-qa} }
搜集汇总
数据集介绍

构建方式
在复杂网络分析领域,MotifQA数据集通过合成生成技术构建而成。该过程采用PyTorch Geometric工具包生成Barabási–Albert基准图结构,通过均匀采样5-15个节点构建正样本并注入五节点房屋模体,同时采样5-20个节点生成无模体负样本。数据生成阶段运用ShuffleNodes变换消除节点位置偏差,将图结构转化为包含自然语言提示与答案的文本格式,最终按50/25/25比例划分训练集、验证集与测试集,并以JSON Lines格式序列化存储。
使用方法
研究者可通过Hugging Face数据集库直接加载两个子集,使用identify_nodes配置获取带节点定位的详细答案,或选择yes_no配置进行二元分类任务。对于图结构处理,可将边缘列表转换为PyTorch Geometric数据对象,利用内置可视化工具生成带模体高亮的图例。本地复现数据集时,通过执行生成脚本指定正负样本数量即可重新生成数据文件,并采用标准工具进行数据完整性验证,确保研究过程的可重复性与可靠性。
背景与挑战
背景概述
图结构数据作为复杂系统建模的重要工具,在社交网络分析、生物信息学等领域具有广泛应用。2025年发布的MotifQA数据集由研究者Naoki Shimoda构建,专注于五节点房屋模体检测任务,通过合成Barabási–Albert图结构生成问答对,旨在推动图神经网络与自然语言处理的交叉研究。该数据集通过精确的图结构描述与自然语言提示相结合,为模体识别算法提供了标准化评估基准,对图推理模型的可解释性研究具有显著意义。
当前挑战
该数据集致力于解决图结构问答中模体检测的核心难题,包括小规模图结构中的拓扑模式识别与节点定位问题。构建过程中面临合成数据真实性的平衡挑战,需通过Barabási–Albert模型约束确保图结构合理性,同时避免节点位置偏差。此外,单一模体类别与受限图规模可能导致模型泛化能力不足,而模板化自然语言回答也限制了语言理解的多样性需求。
常用场景
经典使用场景
在复杂网络分析领域,MotifQA数据集为图结构理解任务提供了标准化评估框架。其核心应用聚焦于五节点房屋基序的检测与定位,通过自然语言提问与图结构数据的双重模态,系统评估模型对拓扑特征的感知能力。该数据集支持二元判断与节点识别两种任务范式,为图神经网络在符号推理与结构匹配方面的性能提供了精确度量基准。
解决学术问题
该数据集有效解决了图机器学习中结构模式识别的核心挑战。通过合成数据生成机制,它克服了真实图数据标注成本高昂的瓶颈,为研究社区提供了可扩展的评估基准。其精心设计的平衡正负样本分布,显著提升了模型泛化能力评估的可靠性,推动了图神经网络在复杂模式检测任务中的理论发展。
实际应用
在生物信息学与社交网络分析等实际场景中,MotifQA启发了新型结构模式检测方法的开发。其图语言对齐的架构为药物分子功能团识别、网络异常检测等任务提供了技术范式。基于该数据集训练的模型已成功应用于蛋白质相互作用网络中的保守模体挖掘,为生命科学领域的模式发现提供了可解释的计算工具。
数据集最近研究
最新研究方向
在知识图谱与图神经网络交叉领域,MotifQA数据集正推动图结构理解与自然语言处理的深度融合。当前研究聚焦于探索多模态图推理机制,通过结合拓扑特征与语义提示提升模型对复杂模式的泛化能力。该数据集在可解释人工智能领域引发广泛关注,其合成的五节点房屋基元检测任务为验证图注意力机制与因果推理模型提供了基准平台。随着图Transformer架构的兴起,研究者正利用该数据集探索基于语义约束的图结构搜索算法,这对药物发现与社交网络分析等领域具有重要参考价值。
以上内容由遇见数据集搜集并总结生成



