five

Atipico1/mrqa_preprocessed_thres-0.95_by-dpr

收藏
Hugging Face2024-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Atipico1/mrqa_preprocessed_thres-0.95_by-dpr
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字段,如subset、qid、question、answers、masked_query、context、answer_sent、answer_in_context和query_embedding等。数据集的训练集包含204348个样本,总大小为823710051.792633字节。在数据处理过程中,通过字符串匹配和相似性去重等方法,最终保留了204348个样本。

该数据集包含多个字段,如subset、qid、question、answers、masked_query、context、answer_sent、answer_in_context和query_embedding等。数据集的训练集包含204348个样本,总大小为823710051.792633字节。在数据处理过程中,通过字符串匹配和相似性去重等方法,最终保留了204348个样本。
提供机构:
Atipico1
原始信息汇总

数据集概述

数据集信息

  • 特征列表:

    • subset: 字符串类型
    • qid: 字符串类型
    • question: 字符串类型
    • answers: 字符串序列
    • masked_query: 字符串类型
    • context: 字符串类型
    • answer_sent: 字符串类型
    • answer_in_context: 字符串序列
    • query_embedding: 浮点数序列
  • 数据分割:

    • train: 包含204348个样本,占用823710051.792633字节
  • 数据集大小:

    • 下载大小: 858780623字节
    • 实际大小: 823710051.792633字节

数据处理步骤

  1. 初始数据集大小: 450309
  2. 去除重复数据: 401207
  3. 上下文预处理前: 401207
  4. 上下文预处理后: 381972
  5. 分割前: 381972
  6. 分割后: 378213
  7. 上下文长度过滤后: 233328
  8. 答案长度过滤后: 222697
  9. 相似度去重后: 204348
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作