five

ontonotes/conll2012_ontonotesv5|自然语言处理数据集|多语言分析数据集

收藏
hugging_face2024-01-18 更新2024-06-15 收录
自然语言处理
多语言分析
下载链接:
https://hf-mirror.com/datasets/ontonotes/conll2012_ontonotesv5
下载链接
链接失效反馈
资源简介:
该数据集是基于OntoNotes 5.0的CoNLL2012共享任务数据,包含阿拉伯语、中文和英语的多语言语料库。数据集的主要任务包括命名实体识别、词性标注、共指消解、句法分析、词形还原和词义消歧等。数据集的结构包括文档ID、句子、词性标注、句法树、谓词词干、谓词框架ID、词义、说话者、命名实体、语义角色标注框架和共指跨度等信息。数据集分为训练集、验证集和测试集,并且有不同版本的数据配置。
提供机构:
ontonotes
原始信息汇总

数据集卡片 for CoNLL2012 共享任务数据基于 OntoNotes 5.0

数据集描述

  • 数据集名称: CoNLL2012 共享任务数据基于 OntoNotes 5.0
  • 多语言性: 多语言
  • 语言: 阿拉伯语, 英语, 中文
  • 许可证: CC BY-NC-ND 4.0
  • 数据集大小分类: 10K<n<100K
  • 源数据: 原始数据
  • 任务类别:
    • 命名实体识别
    • 词性标注
    • 指代消解
    • 句法分析
    • 词形还原
    • 词义消歧
  • 数据集ID: ontonotes-5-0
  • 标签: 语义角色标注

数据集结构

配置名称和特征

  • english_v4:

    • 特征:
      • document_id: 字符串
      • sentences: 列表,包含以下字段:
        • part_id: 整数
        • words: 字符串序列
        • pos_tags: 类别标签序列
        • parse_tree: 字符串
        • predicate_lemmas: 字符串序列
        • predicate_framenet_ids: 字符串序列
        • word_senses: 浮点数序列
        • speaker: 字符串
        • named_entities: 类别标签序列
        • srl_frames: 列表,包含以下字段:
          • verb: 字符串
          • frames: 字符串序列
        • coref_spans: 整数序列,长度为3
    • 分割:
      • train: 1940个样本, 112246121字节
      • validation: 222个样本, 14116925字节
      • test: 222个样本, 14709044字节
    • 下载大小: 193644139字节
    • 数据集大小: 141072090字节
  • chinese_v4:

    • 特征:
      • document_id: 字符串
      • sentences: 列表,包含以下字段:
        • part_id: 整数
        • words: 字符串序列
        • pos_tags: 类别标签序列
        • parse_tree: 字符串
        • predicate_lemmas: 字符串序列
        • predicate_framenet_ids: 字符串序列
        • word_senses: 浮点数序列
        • speaker: 字符串
        • named_entities: 类别标签序列
        • srl_frames: 列表,包含以下字段:
          • verb: 字符串
          • frames: 字符串序列
        • coref_spans: 整数序列,长度为3
    • 分割:
      • train: 1391个样本, 77195698字节
      • validation: 172个样本, 10828169字节
      • test: 166个样本, 9585138字节
    • 下载大小: 193644139字节
    • 数据集大小: 97609005字节
  • arabic_v4:

    • 特征:
      • document_id: 字符串
      • sentences: 列表,包含以下字段:
        • part_id: 整数
        • words: 字符串序列
        • pos_tags: 字符串序列
        • parse_tree: 字符串
        • predicate_lemmas: 字符串序列
        • predicate_framenet_ids: 字符串序列
        • word_senses: 浮点数序列
        • speaker: 字符串
        • named_entities: 类别标签序列
        • srl_frames: 列表,包含以下字段:
          • verb: 字符串
          • frames: 字符串序列
        • coref_spans: 整数序列,长度为3
    • 分割:
      • train: 359个样本, 42017761字节
      • validation: 44个样本, 4859292字节
      • test: 44个样本, 4900664字节
    • 下载大小: 193644139字节
    • 数据集大小: 51777717字节
  • english_v12:

    • 特征:
      • document_id: 字符串
      • sentences: 列表,包含以下字段:
        • part_id: 整数
        • words: 字符串序列
        • pos_tags: 类别标签序列
        • parse_tree: 字符串
        • predicate_lemmas: 字符串序列
        • predicate_framenet_ids: 字符串序列
        • word_senses: 浮点数序列
        • speaker: 字符串
        • named_entities: 类别标签序列
        • srl_frames: 列表,包含以下字段:
          • verb: 字符串
          • frames: 字符串序列
        • coref_spans: 整数序列,长度为3
    • 分割:
      • train: 10539个样本, 174173192字节
      • validation: 1370个样本, 24264804字节
      • test: 1200个样本, 18254144字节
    • 下载大小: 193644139字节
    • 数据集大小: 216692140字节
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于OntoNotes 5.0构建,由专家生成标注,涵盖英语、中文和阿拉伯语三种语言。数据集的构建过程包括对原始文本进行句法、语义和话语信息的详细标注,确保了数据的高质量和多样性。具体而言,数据集包含了命名实体识别、词性标注、共指消解、句法分析、词形还原和词义消歧等多项任务的标注信息。
特点
该数据集的主要特点在于其多语言性和多任务性。它不仅支持英语、中文和阿拉伯语三种语言,还涵盖了多种自然语言处理任务,如命名实体识别、词性标注、共指消解等。此外,数据集的标注信息由专家生成,确保了标注的准确性和可靠性。
使用方法
使用该数据集时,用户可以根据需要选择不同的语言配置(如英语_v4、中文_v4、阿拉伯语_v4等)和任务类型。数据集提供了详细的文档和示例,帮助用户理解和使用数据。用户可以通过加载数据集的特定配置,获取包含文档ID、句子、词性标签、句法树、谓词词形、谓词FrameNet ID、词义、命名实体、语义角色标注和共指跨度等信息的实例。
背景与挑战
背景概述
OntoNotes/CoNLL2012_OntoNotesv5数据集是基于OntoNotes 5.0语料库的扩展版本,由专家手动标注,涵盖了多种语言(如英语、中文和阿拉伯语)和多样的文本类型。该数据集在2012年CoNLL共享任务中被广泛使用,主要研究人员和机构包括斯坦福大学和纽约大学等。其核心研究问题涉及命名实体识别、词性标注、共指消解、句法分析等多个自然语言处理任务。该数据集的发布极大地推动了多语言和多任务自然语言处理技术的发展,成为该领域的重要基准数据集。
当前挑战
OntoNotes/CoNLL2012_OntoNotesv5数据集在构建过程中面临多重挑战。首先,多语言数据的整合和标注需要克服语言间的语法和语义差异,确保标注的一致性和准确性。其次,数据集涉及多个复杂的自然语言处理任务,如命名实体识别和共指消解,这些任务本身具有较高的技术难度和计算复杂性。此外,数据集的规模和多样性也带来了存储和处理上的挑战,要求高效的算法和计算资源来处理和分析这些数据。这些挑战不仅影响了数据集的构建,也对其在实际应用中的性能提出了更高的要求。
常用场景
经典使用场景
OntoNotes/CoNLL2012数据集在自然语言处理领域中被广泛用于多种任务,包括命名实体识别(NER)、词性标注(POS)、句法分析、词义消歧和语义角色标注等。其多语言和多领域的特性使其成为训练和评估多任务模型的理想选择。
解决学术问题
该数据集解决了自然语言处理中多个关键的学术问题,如跨语言的命名实体识别、复杂句子的句法解析、以及多语言环境下的词义消歧。其丰富的标注信息为研究者提供了深入探索语言结构和语义关系的宝贵资源。
衍生相关工作
基于OntoNotes/CoNLL2012数据集,研究者们开发了多种先进的自然语言处理模型和算法,如BERT、XLNet等预训练语言模型,这些模型在多项任务上取得了显著的性能提升。此外,该数据集还促进了多语言和跨领域的研究,推动了自然语言处理技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Billboard-Hot-100

该数据集包含了自1958年以来所有Billboard Hot 100榜单的历史数据,详细记录了每首歌曲的排名、日期、表演者等信息。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录