five

vidore/syntheticDocQA_healthcare_industry_test

收藏
Hugging Face2024-07-02 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/vidore/syntheticDocQA_healthcare_industry_test
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个特定主题的检索基准,涵盖多个领域,评估了更现实的工业应用中的检索。它包括关于医疗保健行业的文档,允许ViDoRe对医疗文档进行基准测试。数据收集部分提到使用爬虫从互联网上收集了1000个PDF文档,并从这些文档中随机抽取了1000页,生成了100个问题和答案。数据整理部分提到使用视觉语言模型生成查询和答案,并由人工注释者进行质量和相关性过滤。

该数据集是一个特定主题的检索基准,涵盖多个领域,评估了更现实的工业应用中的检索。它包括关于医疗保健行业的文档,允许ViDoRe对医疗文档进行基准测试。数据收集部分提到使用爬虫从互联网上收集了1000个PDF文档,并从这些文档中随机抽取了1000页,生成了100个问题和答案。数据整理部分提到使用视觉语言模型生成查询和答案,并由人工注释者进行质量和相关性过滤。
提供机构:
vidore
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • query: 字符串类型
    • image: 图像类型
    • image_filename: 字符串类型
    • answer: 字符串类型
    • page: 字符串类型
    • model: 字符串类型
    • prompt: 字符串类型
    • source: 字符串类型
  • 分割:
    • test: 包含1000个样本,数据大小为357157600.0字节
  • 下载大小: 309735309字节
  • 数据集大小: 357157600.0字节
  • 配置:
    • default: 包含test分割的数据文件路径为data/test-*

数据集属性

  • 许可证: MIT
  • 语言: 英语
  • 规模: 小于1K
  • 任务类别:
    • 视觉问答
    • 问答
  • 标签:
    • 多模态
    • 检索
    • 文档检索
    • 医疗
    • 医疗行业

数据集描述

该数据集是跨多个领域的特定主题检索基准的一部分,评估在更现实的工业应用中的检索效果。数据集包含关于医疗行业的文档,允许ViDoRe基准测试医疗文档。

数据收集

通过爬虫从互联网上收集了1000个PDF文件,查询词为“医疗行业”。从这些文档中随机抽取了1000页,并关联了100个使用Claude-3 Sonnet生成的问答对。

数据集结构

数据集实例的结构如下: json features:

  • name: query dtype: string
  • name: image dtype: image
  • name: image_filename dtype: string
  • name: answer dtype: string
  • name: page dtype: string
  • name: model dtype: string
  • name: prompt dtype: string
  • name: source dtype: string

引用信息

如果使用此数据集进行研究,请引用原始数据集: latex @misc{faysse2024colpaliefficientdocumentretrieval, title={ColPali: Efficient Document Retrieval with Vision Language Models}, author={Manuel Faysse and Hugues Sibille and Tony Wu and Gautier Viaud and Céline Hudelot and Pierre Colombo}, year={2024}, eprint={2407.01449}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2407.01449}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作