DiscoSG-DS
收藏arXiv2025-06-19 更新2025-06-22 收录
下载链接:
https://github.com/ShaoqLin/DiscoSG
下载链接
链接失效反馈官方服务:
资源简介:
DiscoSG-DS数据集由400个专家标注的实例和8430个合成的实例组成,用于多句子图像描述的场景图解析。每个实例包括平均9个句子,每个图包含至少3倍于现有数据集中的三元组。数据集的创建过程包括手动标注和合成标注,旨在捕捉跨句子共指、长距离依赖关系、隐含关系和全局语义一致性。DiscoSG-DS数据集适用于研究多句子图像描述的场景图解析,有助于解决跨句子共指、长距离依赖关系、隐含关系和全局语义一致性的挑战。
The DiscoSG-DS dataset comprises 400 expert-annotated instances and 8430 synthetic instances, targeting scene graph parsing for multi-sentence image captioning. Each instance contains an average of 9 sentences, and each graph includes at least three times as many triples as those in existing datasets. The dataset is developed via both manual annotation and synthetic annotation, aiming to capture cross-sentence coreference, long-distance dependencies, implicit relations, and global semantic consistency. The DiscoSG-DS dataset is applicable to research on scene graph parsing for multi-sentence image captioning, and it helps address the challenges of cross-sentence coreference, long-distance dependencies, implicit relations, and global semantic consistency.
提供机构:
武汉理工大学, 蒙纳士大学, RMIT
创建时间:
2025-06-19
原始信息汇总
DiscoSG数据集概述
数据集基本信息
- 数据集名称: DiscoSG
- 研究领域: 话语级文本场景图解析
- 官方仓库: https://github.com/ShaoqLin/DiscoSG
数据集统计信息
- 人工标注实例: 400个(训练集300个,测试集100个)
- 合成实例: 8,430个(训练集)
- 总训练样本: 8,730个(300人工标注 + 8,430合成)
数据特征对比
| 数据集 | 实例数量 | 平均长度 | 平均三元组 | 平均对象 | 平均关系 | 总三元组数 |
|---|---|---|---|---|---|---|
| VG | 2,966,195 | 5.34 | 1.53 | – | – | 4,533,271 |
| FACTUAL | 40,369 | 6.08 | 1.76 | – | – | 71,124 |
| DiscoSG人工 | 400 | 181.15 | 20.49 | 10.11 | 6.54 | 8,195 |
| DiscoSG合成 | 8,430 | 163.07 | 19.41 | 10.06 | 6.39 | 163,640 |
目录结构
├── detailcap_discosg_mr.py ├── caparena_mr.py ├── discourse_foil_acc_mr.py ├── DiscoSG_datasets/ │ └── [dataset files] ├── reusable_graph/ │ ├── Disco_large_subsent_100.json └── ... └── logs/ └── [inference logs]
快速使用指南
-
数据集路径配置
- 修改
detailcap_discosg_mr.py第64行路径 - 修改
dataset_utils.py第136和167行路径
- 修改
-
快速推理
- 使用
reusable_graph目录中的JSON文件替换参数: python --original_parse_dict --sub_sentence_parse_dict --combined_parse_dict
- 使用
-
复现材料
- 包含完整推理日志和中间生成图结构
-
CAPTURE指标
- 需从CAPTURE仓库获取并替换capture.py文件
搜集汇总
数据集介绍

构建方式
DiscoSG-DS数据集的构建采用了多阶段混合标注策略,结合专家人工标注与合成数据生成技术。首先从SharedGPT4V数据集中筛选出40,000组多样化的图像-描述对,通过TF-IDF文本嵌入进行多样性采样。核心标注流程采用主动学习框架,由经过严格训练的专家团队分两轮迭代完成400组黄金标准标注,每轮通过GPT-4o生成初始图稿后经双阶段人工校验(研究生初级标注+博士后专家复核)。为扩展数据规模,利用经过300组人工数据微调的GPT-4o教师模型,对8,430组高质量描述进行自动图生成,最终形成包含9.3句平均长度的多句子描述-场景图对。
使用方法
使用该数据集需采用层次化处理策略:首先通过FACTUAL-T5等句子级解析器生成初始图,再基于数据集训练的DiscoSG-Refiner模型进行迭代优化。典型流程包括:1)用编码器模块识别冗余三元组(如错误的核心指代),2)通过解码器生成补充三元组(如添加跨句隐含关系),3)经3轮迭代获得最终图。在评估阶段,建议采用改进的BiSoftSPICE指标,结合传统SPICE分数,以同时衡量精确匹配和语义相似度。对于下游任务如幻觉检测,可将生成的场景图与D-FOIL基准对比,通过图结构差异识别描述中的事实偏差。
背景与挑战
背景概述
DiscoSG-DS数据集由武汉大学、莫纳什大学和RMIT大学的研究团队于2025年6月提出,旨在解决视觉语言模型(VLMs)生成的多句子描述与现有单句子场景图解析方法之间的不匹配问题。该数据集包含400个专家标注和8,430个合成的多句子描述-场景图对,每个描述平均包含9个句子,场景图的三元组数量是现有数据集的3倍以上。DiscoSG-DS通过捕捉跨句子共指、长距离依赖关系和隐含推理等话语级现象,为图像描述评估、幻觉检测等下游任务提供了重要支持。
当前挑战
DiscoSG-DS面临的核心挑战包括:1) 领域问题方面,需要解决跨句子共指解析、长距离关系捕捉和隐含信息推理等话语级解析难题;2) 构建过程中,专家标注需要处理复杂的多句子语义一致性,合成数据需确保与图像内容对齐,同时平衡人工标注成本与数据规模。此外,现有小型预训练语言模型难以处理复杂话语级图生成,而大型模型又面临高推理成本和许可限制的挑战。
常用场景
经典使用场景
DiscoSG-DS数据集在自然语言处理领域中被广泛用于研究多句子描述的语义解析任务。该数据集通过提供大量专家标注和合成的多句子描述-场景图对,支持了从复杂文本描述中生成语义图的研究。研究者们利用该数据集训练和评估模型,以解决跨句子指代消解、长距离关系捕捉等关键问题。
解决学术问题
DiscoSG-DS数据集解决了传统单句子场景图解析方法在多句子描述上的局限性。通过提供包含跨句子指代、长距离关系和隐含信息的标注数据,该数据集使得研究者能够开发出更强大的语义解析模型。它不仅提升了场景图生成的准确性,还为评估多句子语义解析性能提供了可靠基准。
实际应用
在实际应用中,DiscoSG-DS数据集支持了多种视觉语言任务,如图像描述评估、幻觉检测和图像检索。基于该数据集训练的模型能够更准确地分析复杂描述,为智能图像理解系统提供更丰富的语义信息。这些应用在内容审核、辅助视觉障碍人士等领域展现出重要价值。
数据集最近研究
最新研究方向
随着视觉语言模型(VLMs)生成多句子、篇章级图像描述的普及,传统的单句子场景图解析方法在处理跨句子指代、长距离关系等复杂语义时面临显著挑战。DiscoSG-DS数据集的提出填补了这一研究空白,其最新研究方向集中在三个维度:一是探索基于迭代图优化的轻量化解析框架(如DiscoSG-Refiner),通过解耦删除与插入操作降低计算开销;二是研究合成数据增强策略对篇章级解析性能的影响,实验表明15倍数据扩增可使SPICE指标提升14%;三是构建D-FOIL基准推动篇章级幻觉检测研究,基于场景图的评估方法在检测准确率上超越传统指标30%。这些进展显著提升了视觉描述结构化解析的语义连贯性,并为图像描述评估、跨模态检索等下游任务提供了更可靠的语义表示基础。
相关研究论文
- 1DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement武汉理工大学, 蒙纳士大学, RMIT · 2025年
以上内容由遇见数据集搜集并总结生成



