hotchpotch/jaqket_v1_qa_wikija_context

Name: hotchpotch/jaqket_v1_qa_wikija_context
Creator: hotchpotch
Published: 2024-02-25 06:14:45
License: 暂无描述

Hugging Face2024-02-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hotchpotch/jaqket_v1_qa_wikija_context

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于JAQKET公开数据集，并添加了Wikipedia上下文信息的数据集。它主要用于问答任务，特别是那些需要结合上下文信息来提取答案的任务。数据集中包含了问题、答案、上下文（Wikipedia的相关段落）等信息。上下文信息是通过将问题转换为特征向量，并找到与之最相似的前三个Wikipedia段落来获取的。数据集分为训练集和验证集，分别包含2939和980个样本。此外，数据集的创建过程中使用了特定的工具和模型来提取和匹配Wikipedia段落。

提供机构：

hotchpotch

原始信息汇总

数据集概述

数据集信息

特征

qid: 字符串类型
question: 字符串类型
answer: 字符串类型
context: 字符串序列
answers: 字符串序列
competition: 字符串类型
timestamp: 字符串类型
section: 字符串类型
number: 字符串类型
original_question: 字符串类型
original_answer: 字符串类型
original_additional_info: 字符串类型

数据分割

train:
- 字节数: 7981391
- 样本数: 2939
validation:
- 字节数: 2671680
- 样本数: 980

数据集大小

下载大小: 6275956 字节
数据集大小: 10653071 字节

配置

default:
- 训练数据路径: data/train-*
- 验证数据路径: data/validation-*

许可

CC BY-SA 4.0

任务类别

问答

语言

日语

数据集说明

该数据集基于JAQKET公开的数据，并添加了Wikipedia的上下文信息。适用于问答任务，特别是希望在问答任务中加入上下文信息进行训练或从问题和上下文中准确提取回答的场景。

数据集的上下文包含与问题相关的Wikipedia段落的前三名（通过将问题转换为特征向量并进行相似段落搜索获得），并且答案包含在这些前三名段落中的某一个字符串中。未包含答案的数据已被移除。数据集分为训练集2939条和验证集980条。

Wikipedia段落来自singletongue/wikipedia-utils 的 passages-c400-jawiki-20230403，相关段落的获取使用了hotchpotch/wikipedia-passages-jawiki-embeddings的multilingual-e5-large-query进行相似向量搜索。

5,000+

优质数据集

54 个

任务类型

进入经典数据集