five

coref-data/litbank_indiscrim

收藏
Hugging Face2024-02-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coref-data/litbank_indiscrim
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过将`coref-data/litbank_raw`数据集重新格式化生成的,采用了无差别共指格式。数据集包含多个配置,每个配置都有详细的特征描述,如句子、共指链、文本、体裁和元数据等。数据集被分割为训练集、验证集和测试集,并提供了每个分割的文件大小和示例数量。
提供机构:
coref-data
原始信息汇总

数据集概述

该数据集包含多个配置(split_0 到 split_9),每个配置都有特定的特征和数据分割。以下是每个配置的详细信息:

配置详情

split_0

  • 特征:
    • sentences:
      • id: int64
      • misc:
        • parse_tree: string
      • speaker: null
      • text: string
      • tokens:
        • deprel: string
        • end_char: int64
        • feats: string
        • head: int64
        • id: int64
        • lemma: string
        • misc: string
        • start_char: int64
        • text: string
        • upos: string
        • xpos: string
    • coref_chains: sequence of sequence of sequence of int64
    • id: string
    • text: string
    • genre: string
    • meta_data:
      • author: string
      • comment: string
      • date: string
      • gutenberg_id: string
      • title: string
  • 分割:
    • train: 80 examples, 66722053 bytes
    • validation: 10 examples, 9538946 bytes
    • test: 10 examples, 10206291 bytes
  • 下载大小: 44024474 bytes
  • 数据集大小: 86467290 bytes

split_1 到 split_9

  • 特征:
    • sentences:
      • id: int64
      • speaker: null
      • text: string
      • tokens:
        • id: int64
        • text: string
    • coref_chains: sequence of sequence of sequence of int64
    • id: string
    • text: string
    • genre: string
    • meta_data:
      • author: string
      • comment: string
      • date: string
      • gutenberg_id: string
      • title: string
  • 分割:
    • train: 80 examples
    • validation: 10 examples
    • test: 10 examples
  • 下载大小: 40296693 bytes 到 40294593 bytes
  • 数据集大小: 66949329 bytes

数据文件路径

  • split_0split_9 的每个配置都有对应的数据文件路径,格式为 split_X/train-*, split_X/validation-*, split_X/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作