lingvenvist/animacy-ca-gold-standard-minus
收藏Hugging Face2024-07-14 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/lingvenvist/animacy-ca-gold-standard-minus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个字段,包括句子(sentences)、词元(tokens)、动画标签(anim_tags)和目标索引(target-indexes)。动画标签是一个序列字段,包含三个类别标签:N、A和H。数据集被分为训练集、测试集和验证集,分别包含9413、2017和2018个样本。数据集的总下载大小为2294994字节,总大小为4911768字节。
The dataset includes four main features: sentences, tokens, anim_tags, and target-indexes. Sentences are of string type, tokens are sequences of strings, anim_tags are sequences containing class labels with three types: N, A, H. Target-indexes are sequences of integers. The dataset is divided into three parts: train, test, and validation, each with specified byte sizes and number of examples. The download size and actual size of the dataset are also recorded.
提供机构:
lingvenvist
原始信息汇总
数据集概述
数据集信息
特征
- sentences: 类型为字符串。
- tokens: 序列类型,元素为字符串。
- anim_tags: 序列类型,包含分类标签,标签名称为:
- 0: N
- 1: A
- 2: H
- target-indexes: 序列类型,元素为整数(int64)。
数据分割
- train: 包含9413个样本,占用3443120字节。
- test: 包含2017个样本,占用733284字节。
- validation: 包含2018个样本,占用735364字节。
数据大小
- 下载大小: 2294994字节。
- 数据集大小: 4911768字节。
配置
- default:
- train: 文件路径为
data/train-* - test: 文件路径为
data/test-* - validation: 文件路径为
data/validation-*
- train: 文件路径为



