InstructDoc
收藏arXiv2024-01-24 更新2024-06-21 收录
下载链接:
https://github.com/nttmdlab-nlp/InstructDoc
下载链接
链接失效反馈官方服务:
资源简介:
InstructDoc是由NTT Corporation和东北大学联合创建的大型视觉文档理解数据集,包含30个公开可用的数据集,覆盖12种不同任务,如问答和信息提取。数据集中的每个文档都附有专家标注的多样化指令,遵循统一的指令格式,包括用户的意图和答案风格。InstructDoc旨在通过手工指令提高对开放文档类型/格式的理解能力,如文档布局、文本的可视化表示及对象(如图表)的关系提取。该数据集的应用领域广泛,旨在解决视觉文档理解中的零样本泛化问题。
提供机构:
NTT Corporation 和东北大学
创建时间:
2024-01-24



