five

HuggingFaceM4/Docmatix

收藏
Hugging Face2024-08-26 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceM4/Docmatix
下载链接
链接失效反馈
官方服务:
资源简介:
Docmatix是一个用于文档视觉问答(Document Visual Question Answering)的大规模数据集,是Idefics3模型微调的一部分。数据集包含图像和PDF两种格式,分别对应不同的配置(images和pdf)。每个样本包含图像和文本对话,文本对话包括用户和助手的问答对。数据集还提供了与其他DocVQA数据集的比较信息。

Docmatix is a massive dataset for Document Visual Question Answering, used for the fine-tuning of the vision-language model Idefics3. The dataset includes documents in image and PDF formats, along with conversations between a user and an assistant about the document content. The dataset configurations include images, PDF, and zero-shot experiments, each with different data files and features. The dataset is large, containing millions of images and question-answer pairs.
提供机构:
HuggingFaceM4
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作