five

ali5341/arxivqa-chat-format

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ali5341/arxivqa-chat-format
下载链接
链接失效反馈
官方服务:
资源简介:
ArxivQA Chat-Format数据集是基于MMInstruction/ArxivQA的多模态聊天格式准备,用于监督微调(SFT)。该数据集采用聊天格式SFT数据、指令调优对话、OpenAI风格的消息格式以及多模态聊天格式(图像+文本)。原始数据集聚焦于基于arXiv论文图表的多模态多项选择QA,包含10万条示例,数据字段包括图像路径、选项、问题、标签和理由。数据准备过程中,跳过无效记录,标准化标签格式为选项字母(A/B/C/...),并包含可用的理由。每条记录包含用户消息(图像+文本)和助手回复(答案+理由)以及元数据(样本ID、图像路径、原始标签、标准化标签)。

The ArxivQA Chat-Format dataset is a multimodal chat-format preparation of ArxivQA for supervised fine-tuning (SFT). The dataset adopts chat-format SFT data, instruction-tuning conversations, OpenAI-style `messages` format, and multimodal chat format (`image` + `text`). The original dataset focuses on multimodal multiple-choice QA grounded in figures from arXiv papers, containing 100K examples with data fields including image path, options, question, label, and rationale. During preparation, invalid records are skipped, label formats are normalized to option letters (`A/B/C/...`), and available rationales are included. Each record contains user messages (`image` + `text`) and assistant responses (answer + rationale) along with metadata (sample id, image path, raw label, normalized label).
提供机构:
ali5341
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作