AdditiveLLM2-OA
收藏Hugging Face2026-03-20 更新2026-03-21 收录
下载链接:
https://huggingface.co/datasets/ppak10/AdditiveLLM2-OA
下载链接
链接失效反馈官方服务:
资源简介:
AdditiveLLM2-OA 数据集包含开放获取的期刊文章(截至2026年2月),用于AdditiveLLM2的领域适应预训练和指令微调。数据集分为三个配置:'text'(全文文本)、'images'(图表及标题)和'vit'(图表及视觉语言模型生成的描述和对话)。'text'配置包含文章全文、来源期刊、卷号、文件名、标题、作者、DOI、访问类型和关键词;'images'配置包含图表图像、图表标题、标签、页码及文章元数据;'vit'配置在'images'基础上增加了视觉语言模型生成的描述和问答对。数据集规模为1K<n<10K,总令牌数为57,308,594(文本令牌45,839,815,图像令牌11,468,779)。适用于文本生成任务,特别是与增材制造和制造过程相关的领域。
创建时间:
2026-03-20



