hpprc_emb_reranker_score

Hugging Face2024-08-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/hotchpotch/hpprc_emb_reranker_score

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个配置，分别针对日文问答数据进行处理。每个配置详细记录了数据的特征，包括原始行ID、锚文本、正负样本ID及其评分等。数据集主要用于对日文数据中的负样本进行随机抽样和评分。

This dataset comprises two configurations, both designed for processing Japanese question-answering data. Each configuration thoroughly documents the data characteristics, including original row ID, anchor text, positive and negative sample IDs along with their respective scores, and other related details. The dataset is primarily employed for random sampling and scoring of negative samples within the Japanese question-answering data.

创建时间：

2024-08-09

原始信息汇总

数据集概述

该数据集包含多个配置，每个配置都有特定的特征和数据分割。以下是各配置的详细信息：

配置详情

配置1: auto-wiki-qa-dataset-4feb2e2492

特征:
- original_row_id: int64
- anc: string
- pos_ids: sequence of int64
- neg_ids: sequence of int64
- pos_ids.score: sequence of float64
- neg_ids.score: sequence of float64
- neg_mean: float64
- neg_std: float64
- neg_min: float64
- neg_max: float64
- neg_median: float64
- neg_percentile90: float64
- neg_percentile95: float64
分割:
- train:
  - num_bytes: 1639490747
  - num_examples: 2377503
下载大小: 1058176311
数据集大小: 1639490747

配置2: auto-wiki-qa-nemotron-dataset-e1ee65e850

特征:
- original_row_id: int64
- anc: string
- pos_ids: sequence of int64
- neg_ids: sequence of int64
- pos_ids.score: sequence of float64
- neg_ids.score: sequence of float64
- neg_mean: float64
- neg_std: float64
- neg_min: float64
- neg_max: float64
- neg_median: float64
- neg_percentile90: float64
- neg_percentile95: float64
分割:
- train:
  - num_bytes: 110576681
  - num_examples: 156088
下载大小: 67438738
数据集大小: 110576681

配置3: jagovfaqs-dataset-4feb2e2492

特征:
- original_row_id: int64
- anc: string
- pos_ids: sequence of int64
- neg_ids: sequence of int64
- pos_ids.score: sequence of float64
- neg_ids.score: sequence of float64
- neg_mean: float64
- neg_std: float64
- neg_min: float64
- neg_max: float64
- neg_median: float64
- neg_percentile90: float64
- neg_percentile95: float64
分割:
- train:
  - num_bytes: 17963049
  - num_examples: 22794
下载大小: 7593861
数据集大小: 17963049

配置4: jqara-dataset-e1ee65e850

特征:
- original_row_id: int64
- anc: string
- pos_ids: sequence of int64
- neg_ids: sequence of int64
- pos_ids.score: sequence of float64
- neg_ids.score: sequence of float64
- neg_mean: float64
- neg_std: float64
- neg_min: float64
- neg_max: float64
- neg_median: float64
- neg_percentile90: float64
- neg_percentile95: float64
分割:
- train:
  - num_bytes: 1783539
  - num_examples: 2235
下载大小: 1147858
数据集大小: 1783539

配置5: miracl-dataset-e1ee65e850

特征:
- original_row_id: int64
- anc: string
- pos_ids: sequence of int64
- neg_ids: sequence of int64
- pos_ids.score: sequence of float64
- neg_ids.score: sequence of float64
- neg_mean: float64
- neg_std: float64
- neg_min: float64
- neg_max: float64
- neg_median: float64
- neg_percentile90: float64
- neg_percentile95: float64
分割:
- train:
  - num_bytes: 2364160
  - num_examples: 3477
下载大小: 1530331
数据集大小: 2364160

配置6: mr-tydi-dataset-e1ee65e850

特征:
- original_row_id: int64
- anc: string
- pos_ids: sequence of int64
- neg_ids: sequence of int64
- pos_ids.score: sequence of float64
- neg_ids.score: sequence of float64
- neg_mean: float64
- neg_std: float64
- neg_min: float64
- neg_max: float64
- neg_median: float64
- neg_percentile90: float64
- neg_percentile95: float64
分割:
- train:
  - num_bytes: 2455603
  - num_examples: 3697
下载大小: 1583864
数据集大小: 2455603

数据文件路径

auto-wiki-qa-dataset-4feb2e2492:
- train: auto-wiki-qa-dataset-4feb2e2492/train-*
auto-wiki-qa-nemotron-dataset-e1ee65e850:
- train: auto-wiki-qa-nemotron-dataset-e1ee65e850/train-*
jagovfaqs-dataset-4feb2e2492:
- train: jagovfaqs-dataset-4feb2e2492/train-*
jqara-dataset-e1ee65e850:
- train: jqara-dataset-e1ee65e850/train-*
miracl-dataset-e1ee65e850:
- train: miracl-dataset-e1ee65e850/train-*
mr-tydi-dataset-e1ee65e850:
- train: mr-tydi-dataset-e1ee65e850/train-*

搜集汇总

数据集介绍

构建方式

该数据集基于hpprc/emb的collection与dataset配对数据，通过随机采样最多32个负例，并使用hotchpotch/japanese-bge-reranker-v2-m3-v1模型进行评分构建而成。每个样本包含锚点文本（anc）、正例ID（pos_ids）及其评分（pos_ids.score）、负例ID（neg_ids）及其评分（neg_ids.score），并提供了负例的统计信息（如均值、标准差、百分位数等）。数据集的构建注重负例的多样性与评分的准确性，适用于信息检索与重排序任务。

特点

该数据集的特点在于其丰富的负例采样与详细的评分信息。每个样本不仅包含正例与负例的ID及其评分，还提供了负例的统计特征，如均值、标准差、最小值、最大值、中位数及百分位数等。这些特征为模型训练与评估提供了多维度的参考。此外，数据集覆盖了多个子集（如auto-wiki-qa、jagovfaqs等），适用于不同领域的信息检索任务。数据集的构建方式确保了负例的多样性与评分的可靠性，为信息检索与重排序任务提供了高质量的训练数据。

使用方法

使用该数据集时，首先需加载目标子集的collection与reranker评分数据。通过锚点文本（anc）与正例、负例的ID，可以从collection中提取对应的文本内容。正例与负例的评分信息可用于训练或评估重排序模型。示例代码展示了如何加载数据集并提取正例与负例的文本及其评分。用户可根据需求调整数据加载与处理流程，结合模型训练框架（如PyTorch或TensorFlow）进行模型开发与优化。数据集适用于信息检索、问答系统等任务，尤其适合需要高精度重排序的场景。

背景与挑战

背景概述

hpprc_emb_reranker_score数据集由hotchpotch团队创建，旨在为日语文本检索任务提供高质量的负样本评分数据。该数据集基于hpprc/emb数据集，结合了hotchpotch/japanese-bge-reranker-v2-m3-v1模型对负样本进行评分，涵盖了多个子集，如auto-wiki-qa、jagovfaqs等。其核心研究问题在于如何通过负样本的评分提升检索模型的性能，特别是在多语言和跨领域的文本检索任务中。该数据集的发布为日语信息检索领域的研究提供了重要的数据支持，推动了相关模型在真实场景中的应用。

当前挑战

hpprc_emb_reranker_score数据集面临的挑战主要包括两个方面。首先，在领域问题方面，如何确保负样本的多样性和代表性是一个关键问题，尤其是在多语言和多领域检索任务中，负样本的质量直接影响模型的泛化能力。其次，在构建过程中，数据集的版本控制与一致性维护具有挑战性，由于不同子集的修订版本可能导致数据结构的差异，如何确保评分与原始数据的对齐成为一个技术难点。此外，负样本的随机采样和评分过程需要高效的计算资源支持，这对数据集的扩展和更新提出了更高的要求。

常用场景

经典使用场景

hpprc_emb_reranker_score数据集在信息检索和问答系统领域具有广泛的应用。该数据集通过结合正例和负例的文本对，利用reranker模型进行评分，能够有效提升检索系统的精度。其经典使用场景包括在问答系统中对候选答案进行排序，确保最相关的答案能够优先呈现给用户。

实际应用

在实际应用中，hpprc_emb_reranker_score数据集被广泛用于构建智能问答系统和搜索引擎。例如，在政府或企业的知识库系统中，该数据集可以帮助系统更准确地理解用户查询，并从海量文档中快速检索出最相关的答案。此外，该数据集还可用于优化在线客服系统，提升用户体验。

衍生相关工作

基于hpprc_emb_reranker_score数据集，许多经典研究工作得以展开。例如，研究者利用该数据集开发了多种改进的reranker模型，进一步提升了检索系统的性能。此外，该数据集还催生了多语言检索和跨领域问答系统的研究，为信息检索领域的多样化发展提供了重要支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集