DDSC/da-wikipedia-queries

Name: DDSC/da-wikipedia-queries
Creator: DDSC
Published: 2025-01-10 22:00:27
License: 暂无描述

Hugging Face2025-01-10 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/DDSC/da-wikipedia-queries

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于训练丹麦语检索嵌入模型的数据集。该数据集通过向大型语言模型展示大约30k个维基百科段落并要求模型生成能够检索到对应段落的查询而创建。每个段落由3个不同的LLM模型生成3个查询。用户可以选择使用哪些段落的查询，例如，可以选择仅使用由一个LLM生成的查询。数据集包含了prompt和生成的查询，以及与段落相对应的正向样本。

This is a dataset for training Danish retrieval embedding models. The dataset is created by showing approximately 30k Wikipedia paragraphs to large language models and asking the models to generate queries that retrieve the corresponding paragraph. Each paragraph is associated with 3 queries generated by 3 different LLMs. Users can choose which queries from which paragraphs to use, for instance, by selecting queries generated by only one LLM. The dataset includes prompts, generated queries, and positive samples corresponding to the paragraphs.

提供机构：

DDSC

5,000+

优质数据集

54 个

任务类型

进入经典数据集