Atipico1/mrqa_preprocessed_thres-0.95_by-dpr
收藏Hugging Face2024-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Atipico1/mrqa_preprocessed_thres-0.95_by-dpr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个字段,如subset、qid、question、answers、masked_query、context、answer_sent、answer_in_context和query_embedding等。数据集的训练集包含204348个样本,总大小为823710051.792633字节。在数据处理过程中,通过字符串匹配和相似性去重等方法,最终保留了204348个样本。
该数据集包含多个字段,如subset、qid、question、answers、masked_query、context、answer_sent、answer_in_context和query_embedding等。数据集的训练集包含204348个样本,总大小为823710051.792633字节。在数据处理过程中,通过字符串匹配和相似性去重等方法,最终保留了204348个样本。
提供机构:
Atipico1
原始信息汇总
数据集概述
数据集信息
-
特征列表:
subset: 字符串类型qid: 字符串类型question: 字符串类型answers: 字符串序列masked_query: 字符串类型context: 字符串类型answer_sent: 字符串类型answer_in_context: 字符串序列query_embedding: 浮点数序列
-
数据分割:
train: 包含204348个样本,占用823710051.792633字节
-
数据集大小:
- 下载大小: 858780623字节
- 实际大小: 823710051.792633字节
数据处理步骤
- 初始数据集大小: 450309
- 去除重复数据: 401207
- 上下文预处理前: 401207
- 上下文预处理后: 381972
- 分割前: 381972
- 分割后: 378213
- 上下文长度过滤后: 233328
- 答案长度过滤后: 222697
- 相似度去重后: 204348



