five

CausalLM/Model-Output-Examples-for-Refined-Anime

收藏
Hugging Face2024-06-21 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/CausalLM/Model-Output-Examples-for-Refined-Anime
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集展示了在合成数据上训练的过参数化模型的多语言(英语、中文、日语和德语)示例结果,特别聚焦于动漫主题。数据集包含40个示例,展示了在没有使用RAG或外部检索的情况下,0-shot事实问答的效果,以及跨页面和文档级别的预训练信息在训练或持续预训练阶段后的检索和泛化能力。选择动漫作为示例是因为它在通用数据集中代表性不足,因此在召回任务中面临挑战。

该数据集展示了在合成数据上训练的过参数化模型的多语言(英语、中文、日语和德语)示例结果,特别聚焦于动漫主题。数据集包含40个示例,展示了在没有使用RAG或外部检索的情况下,0-shot事实问答的效果,以及跨页面和文档级别的预训练信息在训练或持续预训练阶段后的检索和泛化能力。选择动漫作为示例是因为它在通用数据集中代表性不足,因此在召回任务中面临挑战。
提供机构:
CausalLM
原始信息汇总

数据集概述

数据集内容

  • 数据来源:内部过参数化模型训练,使用合成数据生成,类似于“CausalLM/Refined-Anime-Text”的多页爬取后处理方法。
  • 应用范围:不仅限于“Anime-Text”主题,适用于多种主题。
  • 数据类型:展示0-shot事实问答结果,未使用RAG或外部检索。
  • 语言:包含英语、中文、日语和德语。
  • 示例数量:提供40个与“Anime”主题相关的示例。

数据集特点

  • 跨页和文档级预训练信息:展示如何从训练后或连续预训练阶段检索和有效泛化信息。
  • 主题选择:选择“Anime”作为示例,因其在大规模通用数据集中代表性不足,对召回任务构成挑战。

开放性

  • 开源计划:目前没有开源计划,但欢迎使用最先进的开源过参数化模型自行实现细粒度召回机制。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作