bordirlines

Hugging Face2024-09-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/borderlines/bordirlines

下载链接

链接失效反馈

官方服务：

资源简介：

BordIRLines数据集是一个信息检索数据集，包含来自多种语言语料库的查询和相应的排名文档及其相关性分数。数据集涵盖多种语言，并分为不同的来源，如基于LLM的输出。数据集的结构包括query_id、query、territory、rank、score、doc_id和doc_text等字段。数据按语言和来源组织，文件包括queries.tsv和特定语言的JSON和TSV文件。控制语言为英语，包含所有251个地区的查询，而'en'仅涵盖38个英语地区。每个文档都是来自维基百科文章的段落。

创建时间：

2024-09-26

原始信息汇总

BordIRLines Dataset

数据集概述

BordIRLines Dataset 是一个信息检索（IR）数据集，由多种语言的语料库构建而成。它包含查询及其对应的排名文档和相关性分数。数据集涵盖多种语言，包括英语、阿拉伯语、西班牙语等，并根据不同的来源（如基于LLM的输出）进行划分。

语言

数据集包含以下语言的文档和查询：

en: 英语
zht: 繁体中文
ar: 阿拉伯语
zhs: 简体中文
es: 西班牙语
fr: 法语
ru: 俄语
hi: 印地语
ms: 马来语
sw: 斯瓦希里语
az: 阿塞拜疆语
ko: 韩语
pt: 葡萄牙语
hy: 亚美尼亚语
th: 泰语
uk: 乌克兰语
ur: 乌尔都语
sr: 塞尔维亚语
iw: 希伯来语
ja: 日语
hr: 克罗地亚语
tl: 塔加洛语
ky: 吉尔吉斯语
vi: 越南语
fa: 波斯语
tg: 塔吉克语
mg: 马尔加什语
nl: 荷兰语
ne: 尼泊尔语
uz: 乌兹别克语
my: 缅甸语
da: 丹麦语
dz: 宗喀语
id: 印度尼西亚语
is: 冰岛语
tr: 土耳其语
lo: 老挝语
sl: 斯洛文尼亚语
so: 索马里语
mn: 蒙古语
bn: 孟加拉语
bs: 波斯尼亚语
ht: 海地克里奥尔语
el: 希腊语
it: 意大利语
to: 汤加语
ka: 格鲁吉亚语
sn: 绍纳语
sq: 阿尔巴尼亚语
control: 见下文

control 语言为英语，包含所有251个地区的查询。相比之下，en 仅包含38个有英语使用者的地区。

每个 doc 是来自维基百科文章的段落。

数据集结构

数据字段

数据集包含以下字段：

query_id (string): 查询的ID。
query (string): 查询文本，来自 queries.tsv 文件。
territory (string): 查询命中的地区。
rank (int32): 文档在相应查询中的排名。
score (float32): 文档的相关性分数，由搜索引擎或模型提供。
doc_id (string): 文章的唯一标识符。
doc_text (string): 相应文章或文档的全文。

下载结构

数据集结构如下：

data/ en/ llm/ en_docs.json en_query_hits.tsv ar/ llm/ ar_docs.json ar_query_hits.tsv ... queries.tsv

queries.tsv: 包含查询ID及其关联的查询文本。
<language>_docs.json: 特定语言的文档JSON文件。
<language>_query_hits.tsv: 包含查询的相关性分数和命中排名的TSV文件。

示例用法

以下是加载 BordIRLines Dataset 进行实验的示例代码：

python from datasets import load_dataset dataset = load_dataset( "borderlines/bordirlines", source=llm, # 数据集来源（如llm） name="all", # 加载所有支持语言的数据 n_hits=10, # 每个查询的最大命中数 <= 50 )

这将下载一个包含所有语言的DatasetDict，从指定的来源（此处为 llm），最多包含 n_hits 个文档（此处为10）。键是语言代码，值是关联的Dataset。

搜集汇总

数据集介绍

构建方式

BordIRLines数据集构建于多语言语料库之上，主要来源于Wikipedia文章段落。该数据集通过整合不同语言的查询及其对应的文档排名与相关性得分，形成了一个跨语言信息检索（IR）的基准。数据集的构建过程涉及从多种语言中提取文档，并结合机器生成的注释，确保了数据的多样性和广泛性。

使用方法

使用BordIRLines数据集时，可以通过Hugging Face的`datasets`库加载不同语言和检索模式的数据。用户可以选择特定的语言和检索系统（如OpenAI或M3嵌入模型），并根据需求加载不同数量的查询结果。数据集的结构清晰，包含查询ID、查询文本、文档ID、文档文本等字段，便于进行信息检索和相关性分析。

背景与挑战

背景概述

BordIRlines数据集由Bryan Li等人于2024年创建，旨在评估跨语言检索增强生成（RAG）模型的性能。该数据集基于多语言语料库构建，涵盖了包括英语、阿拉伯语、西班牙语等在内的多种语言，主要应用于信息检索任务。其核心研究问题在于如何通过多语言检索提升生成模型的跨语言能力，特别是在处理多语言查询和文档时的表现。该数据集通过提供丰富的多语言查询和文档对，为跨语言信息检索领域的研究提供了重要的基准数据，推动了多语言自然语言处理技术的发展。

当前挑战

BordIRlines数据集在构建和应用过程中面临多重挑战。首先，跨语言信息检索的复杂性要求模型能够准确理解并匹配不同语言之间的语义关系，这对模型的跨语言能力提出了极高要求。其次，数据集的构建依赖于多语言语料库的整合，如何确保不同语言文档的质量和一致性是一个关键问题。此外，数据集的多语言特性使得其在处理低资源语言时面临数据稀疏性和标注不足的挑战。最后，如何有效评估模型在多语言环境下的检索性能，尤其是在不同语言之间的迁移能力，仍然是一个开放的研究问题。

常用场景

经典使用场景

BordIRLines数据集在跨语言信息检索领域具有重要应用，尤其是在多语言环境下进行检索增强生成（RAG）任务时。该数据集通过提供多种语言的查询和相关文档对，支持研究者评估不同语言之间的检索效果。其经典使用场景包括在多语言搜索引擎中优化检索算法，确保用户在不同语言环境下能够获得高质量的检索结果。

解决学术问题

BordIRLines数据集解决了跨语言信息检索中的关键问题，特别是在多语言文档检索和相关性评估方面。通过提供多语言的查询和文档对，该数据集帮助研究者评估和优化跨语言检索模型，解决了语言障碍对信息检索效果的影响。此外，该数据集还为跨语言检索增强生成任务提供了基准，推动了相关领域的研究进展。

实际应用

在实际应用中，BordIRLines数据集被广泛用于多语言搜索引擎的开发与优化。例如，全球化的新闻聚合平台可以利用该数据集提升跨语言新闻检索的准确性，确保用户能够获取多语言环境下的高质量信息。此外，该数据集还可用于教育领域，帮助学生和教师在不同语言环境下获取相关学习资源。

数据集最近研究