five

vidore/shiftproject_test

收藏
Hugging Face2024-09-04 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/vidore/shiftproject_test
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个特定主题的检索基准,涵盖了多个领域,并评估了在更现实的工业应用中的检索能力。数据集包含来自Shift Project的法语文档,主题为环境。数据集的法语特性使得ViDoRe能够评估检索模型的多语言能力。数据集包含了从Shift Project报告中收集的5个大型文档,每个主题有1000页文档,并生成了100个问题和答案。由于查询和答案是通过视觉语言模型生成的,因此人工注释者对它们进行了广泛的质量和相关性过滤。

This dataset is part of a topic-specific retrieval benchmark spanning multiple domains, which evaluates retrieval in more realistic industrial applications. It includes French documents from the Shift Project about the environment. Having a dataset in French allows ViDoRe to evaluate the multilingual ability of a retrieval model. The dataset contains 5 large documents collected from Shift Project reports, with 1,000 document pages per topic, and 100 questions and answers generated using a high-quality proprietary vision-language model. As the queries and answers are generated using a Vision Language Model, human annotators extensively filtered them for quality and relevance.
提供机构:
vidore
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • query: 字符串类型
    • image: 图像类型
    • image_filename: 字符串类型
    • answer: 字符串类型
    • page: 字符串类型
    • model: 字符串类型
    • prompt: 字符串类型
    • source: 字符串类型
  • 分割:
    • test: 包含1000个样本,大小为429379568字节
  • 下载大小: 397960570字节
  • 数据集大小: 429379568字节
  • 配置:
    • default: 数据文件路径为data/test-*
  • 任务类别:
    • 视觉问答
    • 问答
  • 语言: 法语
  • 标签:
    • 环境
    • 文档检索
    • 视觉问答
    • 问答
  • 大小类别: n<1K
  • 许可证: MIT

数据集描述

该数据集是跨多个领域的主题特定检索基准的一部分,评估在更现实的工业应用中的检索效果。数据集包括来自Shift Project的关于环境的法语文档。

数据收集

从Shift Project报告中收集了5份大型文档,每个主题总计1,000页文档。这些文档与使用Claude-3 Sonnet生成的高质量视觉语言模型生成的100个问题和答案相关联。

数据整理

由于查询(和答案)是使用视觉语言模型生成的,因此人类注释者对其进行了广泛的质量和相关性过滤。

数据集结构

数据集实例的结构如下: json features:

  • name: query dtype: string
  • name: image dtype: image
  • name: image_filename dtype: string
  • name: answer dtype: string
  • name: page dtype: string
  • name: model dtype: string
  • name: prompt dtype: string
  • name: source dtype: string
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作