EmiMule/GeneratedDatasetNEW
收藏Hugging Face2024-06-14 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/EmiMule/GeneratedDatasetNEW
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: premise
dtype: string
- name: hypothesis
dtype: string
- name: label
dtype: string
- name: wsd
struct:
- name: premise
list:
- name: index
dtype: int64
- name: text
dtype: string
- name: pos
dtype: string
- name: lemma
dtype: string
- name: bnSynsetId
dtype: string
- name: wnSynsetOffset
dtype: string
- name: nltkSynset
dtype: string
- name: hypothesis
list:
- name: index
dtype: int64
- name: text
dtype: string
- name: pos
dtype: string
- name: lemma
dtype: string
- name: bnSynsetId
dtype: string
- name: wnSynsetOffset
dtype: string
- name: nltkSynset
dtype: string
- name: srl
struct:
- name: premise
struct:
- name: tokens
list:
- name: index
dtype: int64
- name: rawText
dtype: string
- name: annotations
list:
- name: tokenIndex
dtype: int64
- name: verbatlas
struct:
- name: frameName
dtype: string
- name: roles
list:
- name: role
dtype: string
- name: score
dtype: float64
- name: span
sequence: int64
- name: englishPropbank
struct:
- name: frameName
dtype: string
- name: roles
list:
- name: role
dtype: string
- name: score
dtype: float64
- name: span
sequence: int64
- name: hypothesis
struct:
- name: tokens
list:
- name: index
dtype: int64
- name: rawText
dtype: string
- name: annotations
list:
- name: tokenIndex
dtype: int64
- name: verbatlas
struct:
- name: frameName
dtype: string
- name: roles
list:
- name: role
dtype: string
- name: score
dtype: float64
- name: span
sequence: int64
- name: englishPropbank
struct:
- name: frameName
dtype: string
- name: roles
list:
- name: role
dtype: string
- name: score
dtype: float64
- name: span
sequence: int64
splits:
- name: train
num_bytes: 232034903.0
num_examples: 33383
download_size: 49397268
dataset_size: 232034903.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征:
- 名称:id
数据类型:字符串
- 名称:前提(premise)
数据类型:字符串
- 名称:假设(hypothesis)
数据类型:字符串
- 名称:标签(label)
数据类型:字符串
- 名称:词义消歧(wsd)
结构:
- 名称:前提(premise)
列表:
- 名称:索引(index)
数据类型:int64
- 名称:文本(text)
数据类型:字符串
- 名称:词性(pos)
数据类型:字符串
- 名称:词元(lemma)
数据类型:字符串
- 名称:BabelNet同义词集ID(bnSynsetId)
数据类型:字符串
- 名称:WordNet同义词集偏移量(wnSynsetOffset)
数据类型:字符串
- 名称:NLTK同义词集(nltkSynset)
数据类型:字符串
- 名称:假设(hypothesis)
列表:
- 名称:索引(index)
数据类型:int64
- 名称:文本(text)
数据类型:字符串
- 名称:词性(pos)
数据类型:字符串
- 名称:词元(lemma)
数据类型:字符串
- 名称:BabelNet同义词集ID(bnSynsetId)
数据类型:字符串
- 名称:WordNet同义词集偏移量(wnSynsetOffset)
数据类型:字符串
- 名称:NLTK同义词集(nltkSynset)
数据类型:字符串
- 名称:语义角色标注(srl)
结构:
- 名称:前提(premise)
结构:
- 名称:tokens
列表:
- 名称:索引(index)
数据类型:int64
- 名称:原始文本(rawText)
数据类型:字符串
- 名称:标注(annotations)
列表:
- 名称:token索引(tokenIndex)
数据类型:int64
- 名称:动词图谱(verbatlas)
结构:
- 名称:框架名称(frameName)
数据类型:字符串
- 名称:角色(roles)
列表:
- 名称:角色(role)
数据类型:字符串
- 名称:得分(score)
数据类型:float64
- 名称:跨度(span)
序列类型:int64
- 名称:英语PropBank(englishPropbank)
结构:
- 名称:框架名称(frameName)
数据类型:字符串
- 名称:角色(roles)
列表:
- 名称:角色(role)
数据类型:字符串
- 名称:得分(score)
数据类型:float64
- 名称:跨度(span)
序列类型:int64
- 名称:假设(hypothesis)
结构:
- 名称:tokens
列表:
- 名称:索引(index)
数据类型:int64
- 名称:原始文本(rawText)
数据类型:字符串
- 名称:标注(annotations)
列表:
- 名称:token索引(tokenIndex)
数据类型:int64
- 名称:动词图谱(verbatlas)
结构:
- 名称:框架名称(frameName)
数据类型:字符串
- 名称:角色(roles)
列表:
- 名称:角色(role)
数据类型:字符串
- 名称:得分(score)
数据类型:float64
- 名称:跨度(span)
序列类型:int64
- 名称:英语PropBank(englishPropbank)
结构:
- 名称:框架名称(frameName)
数据类型:字符串
- 名称:角色(roles)
列表:
- 名称:角色(role)
数据类型:字符串
- 名称:得分(score)
数据类型:float64
- 名称:跨度(span)
序列类型:int64
拆分:
- 名称:训练集
字节数:232034903.0
样本数:33383
下载大小:49397268
数据集大小:232034903.0
配置:
- 配置名称:默认
数据文件:
- 拆分:训练集
路径:data/train-*
提供机构:
EmiMule
原始信息汇总
数据集概述
数据集特征
- id: 数据类型为字符串。
- premise: 数据类型为字符串。
- hypothesis: 数据类型为字符串。
- label: 数据类型为字符串。
- wsd: 结构化数据,包含以下字段:
- premise: 列表类型,包含以下字段:
- index: 数据类型为int64。
- text: 数据类型为字符串。
- pos: 数据类型为字符串。
- lemma: 数据类型为字符串。
- bnSynsetId: 数据类型为字符串。
- wnSynsetOffset: 数据类型为字符串。
- nltkSynset: 数据类型为字符串。
- hypothesis: 列表类型,包含以下字段:
- index: 数据类型为int64。
- text: 数据类型为字符串。
- pos: 数据类型为字符串。
- lemma: 数据类型为字符串。
- bnSynsetId: 数据类型为字符串。
- wnSynsetOffset: 数据类型为字符串。
- nltkSynset: 数据类型为字符串。
- premise: 列表类型,包含以下字段:
- srl: 结构化数据,包含以下字段:
- premise: 结构化数据,包含以下字段:
- tokens: 列表类型,包含以下字段:
- index: 数据类型为int64。
- rawText: 数据类型为字符串。
- annotations: 列表类型,包含以下字段:
- tokenIndex: 数据类型为int64。
- verbatlas: 结构化数据,包含以下字段:
- frameName: 数据类型为字符串。
- roles: 列表类型,包含以下字段:
- role: 数据类型为字符串。
- score: 数据类型为float64。
- span: 序列类型,数据类型为int64。
- englishPropbank: 结构化数据,包含以下字段:
- frameName: 数据类型为字符串。
- roles: 列表类型,包含以下字段:
- role: 数据类型为字符串。
- score: 数据类型为float64。
- span: 序列类型,数据类型为int64。
- tokens: 列表类型,包含以下字段:
- hypothesis: 结构化数据,包含以下字段:
- tokens: 列表类型,包含以下字段:
- index: 数据类型为int64。
- rawText: 数据类型为字符串。
- annotations: 列表类型,包含以下字段:
- tokenIndex: 数据类型为int64。
- verbatlas: 结构化数据,包含以下字段:
- frameName: 数据类型为字符串。
- roles: 列表类型,包含以下字段:
- role: 数据类型为字符串。
- score: 数据类型为float64。
- span: 序列类型,数据类型为int64。
- englishPropbank: 结构化数据,包含以下字段:
- frameName: 数据类型为字符串。
- roles: 列表类型,包含以下字段:
- role: 数据类型为字符串。
- score: 数据类型为float64。
- span: 序列类型,数据类型为int64。
- tokens: 列表类型,包含以下字段:
- premise: 结构化数据,包含以下字段:
数据集分割
- train: 包含33383个样本,占用232034903.0字节。
数据集大小
- 下载大小: 49397268字节。
- 数据集大小: 232034903.0字节。
配置
- default: 包含训练数据文件,路径为
data/train-*。



