five

hotchpotch/JQaRA

收藏
Hugging Face2024-04-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hotchpotch/JQaRA
下载链接
链接失效反馈
官方服务:
资源简介:
JQaRA是一个用于评估检索增强生成(RAG)技术的日语问答数据集,旨在通过外部知识检索来提高大语言模型(LLM)的问答准确性。数据集基于JAQKET的问答数据和Wikipedia的文本,通过多种Embeddings模型进行信息检索,并对检索结果进行正解标签的标注。数据集分为unused、dev和test三个部分,分别用于不同的评估和训练场景。

JQaRA is a Japanese question answering dataset dedicated to evaluating Retrieval-Augmented Generation (RAG) technologies, aiming to improve the question answering accuracy of Large Language Models (LLMs) via external knowledge retrieval. Built upon question answering data from JAQKET and Wikipedia text corpora, this dataset conducts information retrieval with multiple embedding models and annotates the retrieved results with gold labels. The dataset is divided into three subsets: unused, dev, and test, which are applied to distinct evaluation and training scenarios respectively.
提供机构:
hotchpotch
原始信息汇总

JQaRA 数据集概述

数据集信息

特征

  • id: 字符串类型
  • q_id: 字符串类型
  • passage_row_id: 字符串类型
  • label: 64位整数类型
  • text: 字符串类型
  • title: 字符串类型
  • question: 字符串类型
  • answers: 字符串序列类型

分割

  • unused: 23595528 字节,24900 个样本
  • dev: 81708550 字节,86850 个样本
  • test: 140414874 字节,166700 个样本

大小

  • 下载大小: 113244850 字节
  • 数据集大小: 245718952 字节

配置

  • default 配置包含以下数据文件:
    • unused: data/unused-*
    • dev: data/dev-*
    • test: data/test-*

许可

  • cc 许可

任务类别

  • question-answering

语言

  • ja(日语)

数据集构建方法

Q&A 数据选定

  • 基于 JAQKET 数据集的 dev、unused、test 部分(约 2,000 件)。
  • JAQKET 的 train 部分因许可限制未包含。

Wikipedia 数据追加

  • 使用 singletongue/wikipedia-utils 数据集,最大 400 字符的 Wikipedia 文章片段。
  • 通过 5 种 Embeddings 模型(如 intfloat/multilingual-e5-large)进行文本相似度评估。
  • 使用 FAISS 库进行快速向量搜索,结合 IVF 和 IVFPQ 技术。

规则基础的正解标签赋予

  • 通过规则匹配 Wikipedia 文章标题或文本中的完全一致字符串来标记正解标签。
  • 过滤掉正解标签过多或过少的样本,最终 test 数据集包含 1,680 件样本。

正解标签有用性验证

  • 使用 youri-7b-instructionSwallow-13B-instruction-hf 模型进行初步验证。
  • 进一步使用 ChatGPT 3.5GPT4 进行验证。
  • 最终由人工检查并删除无效的正解标签。

test 数据集构建

  • 删除 522 件样本的正解标签,最终 test 数据集包含 1,667 件样本。

dev, unused 数据集构建

  • 与 test 数据集方法类似,但每个问题关联 50 篇文章,且仅使用 youri-7b 模型进行验证。
  • 最终 dev 包含 1,737 件样本,unused 包含 498 件样本。

许可

  • question, answers 列遵循 CC-BY-SA-4.0 许可。
  • title, text 列遵循 Wikipedia 的 CC BY-SA 4.0 或 GFDL 许可。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作