ontonotes/conll2012_ontonotesv5|自然语言处理数据集|多语言分析数据集
收藏数据集卡片 for CoNLL2012 共享任务数据基于 OntoNotes 5.0
数据集描述
- 数据集名称: CoNLL2012 共享任务数据基于 OntoNotes 5.0
- 多语言性: 多语言
- 语言: 阿拉伯语, 英语, 中文
- 许可证: CC BY-NC-ND 4.0
- 数据集大小分类: 10K<n<100K
- 源数据: 原始数据
- 任务类别:
- 命名实体识别
- 词性标注
- 指代消解
- 句法分析
- 词形还原
- 词义消歧
- 数据集ID: ontonotes-5-0
- 标签: 语义角色标注
数据集结构
配置名称和特征
-
english_v4:
- 特征:
document_id
: 字符串sentences
: 列表,包含以下字段:part_id
: 整数words
: 字符串序列pos_tags
: 类别标签序列parse_tree
: 字符串predicate_lemmas
: 字符串序列predicate_framenet_ids
: 字符串序列word_senses
: 浮点数序列speaker
: 字符串named_entities
: 类别标签序列srl_frames
: 列表,包含以下字段:verb
: 字符串frames
: 字符串序列
coref_spans
: 整数序列,长度为3
- 分割:
train
: 1940个样本, 112246121字节validation
: 222个样本, 14116925字节test
: 222个样本, 14709044字节
- 下载大小: 193644139字节
- 数据集大小: 141072090字节
- 特征:
-
chinese_v4:
- 特征:
document_id
: 字符串sentences
: 列表,包含以下字段:part_id
: 整数words
: 字符串序列pos_tags
: 类别标签序列parse_tree
: 字符串predicate_lemmas
: 字符串序列predicate_framenet_ids
: 字符串序列word_senses
: 浮点数序列speaker
: 字符串named_entities
: 类别标签序列srl_frames
: 列表,包含以下字段:verb
: 字符串frames
: 字符串序列
coref_spans
: 整数序列,长度为3
- 分割:
train
: 1391个样本, 77195698字节validation
: 172个样本, 10828169字节test
: 166个样本, 9585138字节
- 下载大小: 193644139字节
- 数据集大小: 97609005字节
- 特征:
-
arabic_v4:
- 特征:
document_id
: 字符串sentences
: 列表,包含以下字段:part_id
: 整数words
: 字符串序列pos_tags
: 字符串序列parse_tree
: 字符串predicate_lemmas
: 字符串序列predicate_framenet_ids
: 字符串序列word_senses
: 浮点数序列speaker
: 字符串named_entities
: 类别标签序列srl_frames
: 列表,包含以下字段:verb
: 字符串frames
: 字符串序列
coref_spans
: 整数序列,长度为3
- 分割:
train
: 359个样本, 42017761字节validation
: 44个样本, 4859292字节test
: 44个样本, 4900664字节
- 下载大小: 193644139字节
- 数据集大小: 51777717字节
- 特征:
-
english_v12:
- 特征:
document_id
: 字符串sentences
: 列表,包含以下字段:part_id
: 整数words
: 字符串序列pos_tags
: 类别标签序列parse_tree
: 字符串predicate_lemmas
: 字符串序列predicate_framenet_ids
: 字符串序列word_senses
: 浮点数序列speaker
: 字符串named_entities
: 类别标签序列srl_frames
: 列表,包含以下字段:verb
: 字符串frames
: 字符串序列
coref_spans
: 整数序列,长度为3
- 分割:
train
: 10539个样本, 174173192字节validation
: 1370个样本, 24264804字节test
: 1200个样本, 18254144字节
- 下载大小: 193644139字节
- 数据集大小: 216692140字节
- 特征:

Billboard-Hot-100
该数据集包含了自1958年以来所有Billboard Hot 100榜单的历史数据,详细记录了每首歌曲的排名、日期、表演者等信息。
github 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录