five

Seongill/Trivia_missing_5_similar_substitution_full

收藏
Hugging Face2023-12-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Seongill/Trivia_missing_5_similar_substitution_full
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: question dtype: string - name: answers sequence: string - name: ctxs list: - name: answer_sent sequence: string - name: hasanswer dtype: bool - name: id dtype: string - name: score dtype: float64 - name: text dtype: string - name: title dtype: string - name: has_answer dtype: bool - name: random_sub dtype: string - name: similar_sub dtype: string - name: ent_type dtype: string - name: new_ctxs list: - name: answer_sent sequence: string - name: hasanswer dtype: bool - name: id dtype: string - name: is_adv dtype: bool - name: new_answer_sent dtype: string - name: original_text dtype: string - name: score dtype: float64 - name: text dtype: string - name: title dtype: string - name: num_advs dtype: int64 splits: - name: train num_bytes: 92783901 num_examples: 11313 download_size: 53918860 dataset_size: 92783901 configs: - config_name: default data_files: - split: train path: data/train-* ---

This dataset is primarily used for question answering systems, containing questions, answers, and related context information. The dataset features are rich, including the text of the question, answer sequences, context lists (containing answer sentences, has-answer indicators, context IDs, scores, texts, and titles), has-answer indicators, random sub-items, similar sub-items, entity types, new context lists (containing answer sentences, has-answer indicators, context IDs, whether they are adversarial items, new answer sentences, original texts, scores, texts, and titles), and the number of adversarial items. The dataset is divided into a training set with 11313 samples.
提供机构:
Seongill
原始信息汇总

数据集信息

特征

  • question: 类型为字符串。
  • answers: 类型为字符串序列。
  • ctxs: 列表类型,包含以下字段:
    • answer_sent: 类型为字符串序列。
    • hasanswer: 类型为布尔值。
    • id: 类型为字符串。
    • score: 类型为浮点数(float64)。
    • text: 类型为字符串。
    • title: 类型为字符串。
  • has_answer: 类型为布尔值。
  • random_sub: 类型为字符串。
  • similar_sub: 类型为字符串。
  • ent_type: 类型为字符串。
  • new_ctxs: 列表类型,包含以下字段:
    • answer_sent: 类型为字符串序列。
    • hasanswer: 类型为布尔值。
    • id: 类型为字符串。
    • is_adv: 类型为布尔值。
    • new_answer_sent: 类型为字符串。
    • original_text: 类型为字符串。
    • score: 类型为浮点数(float64)。
    • text: 类型为字符串。
    • title: 类型为字符串。
  • num_advs: 类型为整数(int64)。

数据分割

  • train: 包含11313个样本,占用92783901字节。

数据集大小

  • 下载大小: 53918860字节。
  • 数据集大小: 92783901字节。

配置

  • default: 包含训练数据文件,路径为data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作