five

SightationRetrieval

收藏
Hugging Face2025-03-13 更新2025-03-14 收录
下载链接:
https://huggingface.co/datasets/Sightation/SightationRetrieval
下载链接
链接失效反馈
官方服务:
资源简介:
SightationRetrieval是一个检索图表示例的数据集,包含图表图像和相应的检索文档描述。数据集通过 sighted 用户对图表描述的评分构建了Top1、Top5、Top10描述,以及困难负样本,用于完成、偏好、检索、问答和推理训练。
创建时间:
2025-03-11
搜集汇总
数据集介绍
main_image_url
构建方式
SightationRetrieval数据集的构建基于对视觉障碍用户(BLV)的需求,通过引入视觉辅助模型(VLM)生成的图表描述,并由视觉健全者对这些描述进行评估。该数据集由5k图表和137k样本组成,包括完成、偏好、检索、问答和推理训练等多种用途。构建过程中,数据集通过多轮推理的潜在监督指导,并依据视觉健全用户的评分,形成了Top1、Top5、Top10以及10个困难负样本的文档集合。
特点
SightationRetrieval数据集的特点在于其专为实现视觉障碍用户的需求而设计,注重图表描述的精确性和适用性。数据集涵盖了丰富的图表描述样本,通过不同级别的描述(Top1至Top10)和困难负样本,为视觉问答和检索任务提供了多样化的训练场景。此外,数据集还利用了 cosine similarity 在 embedding 空间中筛选负样本,增强了数据集的区分度。
使用方法
使用SightationRetrieval数据集时,用户可以依据数据集提供的图像和对应的描述文档进行检索任务训练。数据集的结构允许模型在多个级别上学习描述的细微差异,从而提高检索的准确性。用户需要下载数据集,并根据提供的 splits 进行数据加载和预处理,之后即可将数据集应用于下游任务,如视觉问答和图表描述生成。
背景与挑战
背景概述
SightationRetrieval数据集是在视觉描述生成领域,针对盲人和低视力(BLV)用户的需求而构建的。该数据集的创建源于对现有研究的反思,即 sighted annotators 在描述视觉图像时虽然得心应手,但直接生成的描述存在成本高、偏见以及不符合BLV标准等问题。此项研究由专业团队于近期开展,旨在通过引入视觉语言模型(VLM)并利用潜在监督的多轮推理,让 sighted individuals 对生成的图像描述进行评估,以改善专业教育者对视觉障碍学习者的教学效果。SIGHTATION数据集包含5000个图表和137000个样本,其研究成果对于促进视觉障碍人士的图像理解与交互具有重要的现实意义。
当前挑战
在构建SightationRetrieval数据集的过程中,研究团队面临了多重挑战。首先,如何确保sighted annotators的评估能够真实反映BLV用户的需求,而非仅仅基于自身的视觉经验,是一大难题。其次,数据集的构建不仅要包含高质量的图像描述,还要考虑如何平衡描述的多样性与准确性。此外,挑选合适的图表和合成描述,以及确保负样本(hard negatives)的有效性,也对研究团队提出了严峻挑战。在领域问题上,SightationRetrieval数据集的挑战在于如何提升图像描述的生成质量,以满足BLV用户在信息获取与教育应用中的特定需求。
常用场景
经典使用场景
在视觉辅助技术领域,SightationRetrieval数据集以其独特的构建方式,成为了研究者和开发者不可或缺的资源。该数据集通过将图像与其对应的描述相结合,为检索任务提供了一个典型的使用场景,即通过输入图像来检索最符合的描述文本,这对于提升视觉语言模型在 diagram 描述任务上的性能具有重要意义。
解决学术问题
该数据集解决了长期存在的视觉描述偏差问题,即视觉描述者与最终用户群体(特别是盲人和低视力用户)之间的需求和视觉能力差异。通过引入 sighted 用户对视觉语言模型生成的描述的评估,SightationRetrieval 数据集帮助研究者构建出更加准确、符合盲人和低视力用户需求的描述。
衍生相关工作
基于SightationRetrieval数据集,研究者们已经开展了一系列相关工作,如对视觉语言模型的微调、图像描述的生成与评估等。这些研究不仅推动了视觉描述技术的进步,也为构建更加包容和智能的信息获取环境提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作