coref-data/preco_indiscrim
收藏Hugging Face2024-01-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coref-data/preco_indiscrim
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过将`coref-data/preco_raw`数据集重新格式化为无差别共指格式而生成的。数据集包含多个特征,如id、句子、文本、共指链、类型和元数据等。数据集分为训练集、验证集和测试集,分别包含36120、500和500个样本。下载大小为126986138字节,数据集总大小为457521565.0字节。
该数据集是通过将`coref-data/preco_raw`数据集重新格式化为无差别共指格式而生成的。数据集包含多个特征,如id、句子、文本、共指链、类型和元数据等。数据集分为训练集、验证集和测试集,分别包含36120、500和500个样本。下载大小为126986138字节,数据集总大小为457521565.0字节。
提供机构:
coref-data
原始信息汇总
数据集概述
数据集信息
特征
- id: 数据类型为字符串。
- sentences: 列表类型,包含以下子特征:
- id: 数据类型为int64。
- speaker: 数据类型为null。
- text: 数据类型为字符串。
- tokens: 列表类型,包含以下子特征:
- id: 数据类型为int64。
- text: 数据类型为字符串。
- text: 数据类型为字符串。
- coref_chains: 序列类型,包含多层嵌套的int64类型。
- genre: 数据类型为字符串。
- meta_data: 结构类型,包含以下子特征:
- comment: 数据类型为字符串。
数据分割
- train: 字节数为445303441.3894047,样本数为36120。
- validation: 字节数为6164222.610595303,样本数为500。
- test: 字节数为6053901,样本数为500。
数据大小
- 下载大小: 126986138字节。
- 数据集大小: 457521565.0字节。
配置
- config_name: default
- data_files:
- train: 路径为
data/train-*。 - validation: 路径为
data/validation-*。 - test: 路径为
data/test-*。
- train: 路径为
- data_files:



