Atipico1/mrqa_preprocessed_thres-0.9_by-st
收藏Hugging Face2024-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Atipico1/mrqa_preprocessed_thres-0.9_by-st
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: subset
dtype: string
- name: qid
dtype: string
- name: question
dtype: string
- name: answers
sequence: string
- name: masked_query
dtype: string
- name: context
dtype: string
- name: answer_sent
dtype: string
- name: answer_in_context
sequence: string
- name: query_embedding
sequence: float32
splits:
- name: train
num_bytes: 838499490.2996268
num_examples: 208017
download_size: 873260263
dataset_size: 838499490.2996268
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
MRQA Loaded without SearchQA ! -> Size : 450309
Remove duplicates by string match -> Before : 450309 | After : 401207
Before context preprocess: 401207
After context preprocess: 381972
Before split: 381972
After split: 378213
After context length filtering: 233328
After answer length filtering: 222697
Remove duplicates by similarity-> Before : 222697 | After : 208017
提供机构:
Atipico1
原始信息汇总
数据集概述
数据集特征
- subset: 数据子集,类型为字符串。
- qid: 问题ID,类型为字符串。
- question: 问题内容,类型为字符串。
- answers: 答案序列,类型为字符串序列。
- masked_query: 掩码查询,类型为字符串。
- context: 上下文,类型为字符串。
- answer_sent: 答案句子,类型为字符串。
- answer_in_context: 上下文中的答案,类型为字符串序列。
- query_embedding: 查询嵌入,类型为浮点数序列。
数据集分割
- train: 训练集,包含208017个样本,占用838499490.2996268字节。
数据集大小
- 下载大小: 873260263字节。
- 实际大小: 838499490.2996268字节。
数据集配置
- default: 默认配置,包含训练集文件路径为
data/train-*。
数据处理步骤
- 初始大小: 450309个样本。
- 去重处理: 通过字符串匹配去重,去重前为450309个样本,去重后为401207个样本。
- 上下文预处理前: 401207个样本。
- 上下文预处理后: 381972个样本。
- 分割前: 381972个样本。
- 分割后: 378213个样本。
- 上下文长度过滤后: 233328个样本。
- 答案长度过滤后: 222697个样本。
- 相似性去重: 通过相似性去重,去重前为222697个样本,去重后为208017个样本。



