Seongill/squad_conflict_v2_under_150_with_substitution_chunked_with_wiki_similar
收藏Hugging Face2023-12-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Seongill/squad_conflict_v2_under_150_with_substitution_chunked_with_wiki_similar
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: context
dtype: string
- name: question
dtype: string
- name: answers
struct:
- name: answer_start
sequence: int64
- name: text
sequence: string
- name: masked_query
dtype: string
- name: query_embedding
sequence: float64
- name: ent_type
dtype: string
- name: answer
dtype: string
- name: random_answer
dtype: string
- name: similar_answer
dtype: string
- name: rewritten_context
dtype: string
- name: has_answer
dtype: bool
- name: answer_sent
dtype: string
- name: rewritten_answer_sent
dtype: string
- name: answer_chunk
dtype: string
- name: rewritten_answer_chunk
dtype: string
- name: wiki_similar
dtype: string
splits:
- name: train
num_bytes: 238555780
num_examples: 25866
download_size: 153713075
dataset_size: 238555780
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
Seongill
原始信息汇总
数据集信息
特征
- id: 数据类型为字符串。
- context: 数据类型为字符串。
- question: 数据类型为字符串。
- answers: 结构体,包含以下字段:
- answer_start: 数据类型为整数序列。
- text: 数据类型为字符串序列。
- masked_query: 数据类型为字符串。
- query_embedding: 数据类型为浮点数序列。
- ent_type: 数据类型为字符串。
- answer: 数据类型为字符串。
- random_answer: 数据类型为字符串。
- similar_answer: 数据类型为字符串。
- rewritten_context: 数据类型为字符串。
- has_answer: 数据类型为布尔值。
- answer_sent: 数据类型为字符串。
- rewritten_answer_sent: 数据类型为字符串。
- answer_chunk: 数据类型为字符串。
- rewritten_answer_chunk: 数据类型为字符串。
- wiki_similar: 数据类型为字符串。
数据分割
- train: 包含25866个样本,总字节数为238555780。
数据集大小
- 下载大小: 153713075字节。
- 数据集大小: 238555780字节。
配置
- default: 包含训练数据文件,路径为
data/train-*。



