five

oliverkinch/danmarks-statistik-bt

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/oliverkinch/danmarks-statistik-bt
下载链接
链接失效反馈
官方服务:
资源简介:
Danmarks Statistik BT是一个通过回译从Danmarks Statistik出版物构建的合成丹麦指令调优数据集。每一行数据包含一个简短的丹麦聊天机器人输入(prompt)和一个来自DST出版物的散文段落作为基础答案(target)。数据集构建过程包括从源数据集中提取段落,使用不同角色生成多样化的聊天机器人输入,并对提示进行过滤以确保质量。该数据集旨在用于微调和评估丹麦语言模型在基于官方丹麦统计数据的指令遵循和检索增强生成任务上的表现。

Danmarks Statistik BT is a synthetic Danish instruction-tuning dataset built from Danmarks Statistik publications using backtranslation. Each row pairs a short, natural Danish chatbot input (`prompt`) with a prose passage from a DST publication as the grounding answer (`target`). The dataset construction involves extracting passages from the source dataset, generating varied chatbot inputs using personas, and filtering prompts for quality. The dataset is intended for fine-tuning and evaluating Danish language models on instruction-following and retrieval-augmented generation tasks grounded in official Danish statistics.
提供机构:
oliverkinch
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作