da-wikipedia-queries

Hugging Face2024-11-08 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/DDSC/da-wikipedia-queries

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练丹麦语嵌入模型以进行检索。数据集由约30,000个维基百科段落组成，通过向大型语言模型（LLMs）展示这些段落并要求其生成能够返回这些段落的查询来创建。每个段落使用三种不同的LLMs生成查询，分别是ThatsGroes/Llama-3-8b-instruct-SkoleGPT、google/gemma-2-27b-it和Cohere-For-AI/aya-expanse-32b。因此，每个段落生成三个查询。数据集的特征包括文章ID、标题、URL、正文段落、负面段落、提示、查询、模型、查询的令牌数和提示的令牌数。数据集分为训练集，包含90,840个样本。

创建时间：

2024-11-08

原始信息汇总

数据集概述

语言

丹麦语 (da)

数据集信息

特征

article_id: 文章ID，类型为字符串。
title: 标题，类型为字符串。
url: URL，类型为字符串。
positive: 正文内容，类型为字符串。
negatives: 负样本，类型为字符串序列。
prompt: 提示信息，包含以下子字段：
- content: 提示内容，类型为字符串。
- role: 角色，类型为字符串。
query: 查询，类型为字符串。
model: 模型，类型为字符串。
num_tokens_query: 查询的token数量，类型为int64。
num_tokens_prompt: 提示的token数量，类型为int64。

数据分割

train: 训练集，包含90840个样本，大小为442987411字节。

数据集大小

下载大小: 234840449字节
数据集大小: 442987411字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

数据集目的

用于训练丹麦语的嵌入模型以进行检索。

数据生成方法

使用约30,000个维基百科段落，通过3种不同的LLM生成查询。
每段落生成3个查询，分别由以下模型生成：
- ThatsGroes/Llama-3-8b-instruct-SkoleGPT
- google/gemma-2-27b-it
- Cohere-For-AI/aya-expanse-32b
提示信息存储在prompt列，生成的查询存储在query列，段落内容存储在positive列。

资源消耗

生成数据集消耗1.16 kWh，排放174 gCO2。

作者

Meshach O. Aderele
Kasper Groes Albin Ludvigsen

搜集汇总

数据集介绍

构建方式

da-wikipedia-queries数据集的构建过程基于丹麦语维基百科的段落数据，通过展示约30,000个维基百科段落给大型语言模型（LLMs），并请求这些模型生成能够返回相应段落的查询。每个段落由三个不同的LLMs（ThatsGroes/Llama-3-8b-instruct-SkoleGPT、google/gemma-2-27b-it和Cohere-For-AI/aya-expanse-32b）生成三个查询。数据集在Nvidia A100 GPU服务器上运行，生成过程消耗了1.16千瓦时的能源，并排放了174克二氧化碳当量。

使用方法

使用da-wikipedia-queries数据集时，用户首先需要选择适合的查询子集，例如仅使用由google/gemma-2-27b-it生成的查询。数据集中的`prompt`列包含了生成查询的提示，`query`列包含了生成的查询，`positive`列则包含了对应的正例段落。用户可以利用这些数据训练和评估丹麦语检索模型，或进行相关的自然语言处理研究。数据集的具体使用方法和更多细节可参考相关的MTEB讨论和GitHub仓库。

背景与挑战

背景概述

da-wikipedia-queries数据集由Arrow Denmark和Nvidia赞助，旨在为丹麦语检索任务训练嵌入模型。该数据集由Meshach O. Aderele和Kasper Groes Albin Ludvigsen等研究人员于近期创建，其核心研究问题是通过大规模语言模型生成与丹麦语维基百科段落相关的查询，以提升丹麦语信息检索的准确性和效率。数据集构建过程中，研究人员使用了包括ThatsGroes/Llama-3-8b-instruct-SkoleGPT、google/gemma-2-27b-it和Cohere-For-AI/aya-expanse-32b在内的多种大型语言模型，生成了约30,000个维基百科段落对应的查询。该数据集不仅为丹麦语自然语言处理领域提供了重要的资源，还推动了多语言嵌入模型的研究与应用。

当前挑战

da-wikipedia-queries数据集在构建和应用过程中面临多重挑战。首先，生成高质量且语义准确的查询是一项复杂任务，尽管使用了多种先进的语言模型，但不同模型生成的查询质量存在显著差异，需通过人工筛选和优化以确保数据集的可靠性。其次，丹麦语作为一种资源相对较少的语言，其语料库的多样性和覆盖范围有限，这限制了数据集的扩展性和泛化能力。此外，数据集的构建过程消耗了大量计算资源，并产生了显著的碳排放，如何在高效生成数据的同时减少环境影响，是未来研究需要解决的关键问题。最后，如何将生成的查询有效应用于实际检索任务，并进一步提升模型的性能，仍需进一步的实验和优化。

常用场景

经典使用场景

在丹麦语信息检索领域，da-wikipedia-queries数据集被广泛用于训练和评估嵌入模型。通过展示约30,000个维基百科段落给大型语言模型（LLMs），并让这些模型生成能够返回这些段落的查询，该数据集为丹麦语检索任务提供了丰富的训练样本。研究人员可以利用这些查询和段落对来优化嵌入模型的性能，特别是在多语言环境下的检索任务中。

解决学术问题

da-wikipedia-queries数据集解决了丹麦语信息检索中缺乏高质量训练数据的问题。通过使用多种LLMs生成查询，该数据集为研究人员提供了多样化的查询-段落对，有助于提升嵌入模型在丹麦语检索任务中的准确性和鲁棒性。此外，该数据集还为多语言检索模型的研究提供了宝贵的资源，推动了跨语言信息检索技术的发展。

实际应用

在实际应用中，da-wikipedia-queries数据集被用于构建和优化丹麦语搜索引擎的检索模型。通过使用该数据集训练的嵌入模型，搜索引擎能够更准确地理解用户的查询意图，并返回相关的丹麦语文档。此外，该数据集还可用于开发智能助手和聊天机器人，使其能够更好地理解和回应丹麦语用户的查询。

数据集最近研究