Mabeck/Danish-llama-gen
收藏Hugging Face2024-05-10 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Mabeck/Danish-llama-gen
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个实验性的数据集,使用了LLaMa-3-70B模型生成,并采用了与Stanford-Alpaca相同的技术。数据集生成仅使用了170个种子任务,展示了在丹麦语领域特定数据生成方面的潜力。数据集的生成内容较为基础且简短,主要由于提示模板的限制。虽然英文文本已被筛选,但有时会混淆丹麦语、瑞典语和挪威语的词汇。该数据集应被视为实验或概念验证。
该数据集是一个实验性的数据集,使用了LLaMa-3-70B模型生成,并采用了与Stanford-Alpaca相同的技术。数据集生成仅使用了170个种子任务,展示了在丹麦语领域特定数据生成方面的潜力。数据集的生成内容较为基础且简短,主要由于提示模板的限制。虽然英文文本已被筛选,但有时会混淆丹麦语、瑞典语和挪威语的词汇。该数据集应被视为实验或概念验证。
提供机构:
Mabeck
原始信息汇总
数据集概述
基本信息
- 语言: 丹麦语 (da)
- 任务类别: 问答
- 数据集大小: 1K<n<10K
数据集生成
- 生成方法: 使用LLaMa-3-70B进行实验性数据集生成。
- 技术参照: 采用与Stanford-Alpaca相同的技术,但使用开源的大型语言模型。
- 生成规模: 基于170个种子任务生成,显示出在特定领域数据生成方面的潜力,包括丹麦语。
数据集限制
- 内容特点: 生成的内容较为基础且简短,主要受限于提示模板。
- 语言处理: 英语文本处理已得到优化,但有时会混淆丹麦语、瑞典语和挪威语。
- 应用定位: 该数据集应视为实验性/概念验证(POC)。



