five

allenai/scico

收藏
Hugging Face2023-01-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/scico
下载链接
链接失效反馈
官方服务:
资源简介:
SciCo数据集包含从计算机科学论文中提取的概念提及及其层次结构。该数据集主要用于跨文档共指消解任务,特别是针对科学概念的共指消解。科学概念通常具有多样化的形式(例如,类条件图像合成和分类图像生成)或具有歧义性(例如,AI中的网络架构与系统研究中的网络架构)。为了构建SciCo,开发了一种新的候选生成方法,该方法基于三个资源:低覆盖率的知识库、噪声超类提取器和手动筛选的候选概念。数据集的语言为英语,且是单语言的。数据集的结构包括多个字段,如`flatten_tokens`、`flatten_mentions`、`tokens`等,并且提供了训练集、验证集和测试集的详细统计信息。

The SciCo dataset consists of concept mentions and their hierarchical structures extracted from computer science papers. It is primarily designed for cross-document coreference resolution tasks, specifically coreference resolution targeting scientific concepts. Scientific concepts typically present diverse forms (e.g., class-conditional image synthesis and conditional image generation) or exhibit ambiguity (e.g., "network architecture" in the field of AI versus "network architecture" in systems research). To construct the SciCo dataset, a novel candidate generation approach was developed, which relies on three resources: a low-coverage knowledge base, a noisy hypernym extractor, and manually filtered candidate concepts. The dataset is in English and is a monolingual dataset. Its structure encompasses multiple fields such as `flatten_tokens`, `flatten_mentions`, `tokens`, and so on, and detailed statistical information for the training, validation, and test sets is provided.
提供机构:
allenai
原始信息汇总

数据集概述:SciCo

数据集描述

数据集总结

  • 内容: SciCo包含上下文中的提及集群及其层次结构。数据来源于计算机科学论文,提及的概念主要是CS领域的方法和任务。
  • 挑战: 科学概念形式多样且可能存在歧义。
  • 构建方法: 利用低覆盖率知识库、噪声超类提取器和手工候选集进行候选生成。

支持的任务和排行榜

  • 信息待补充

语言

  • 语言: 英语

数据集结构

数据实例

  • 信息待补充

数据字段

  • flatten_tokens: 主题中所有令牌的单一列表。
  • flatten_mentions: 提及数组,每个提及由[开始,结束,集群ID]表示。
  • tokens: 段落数组。
  • doc_ids: tokens中每个段落的文档ID。
  • metadata: 每个文档ID的元数据。
  • sentences: tokens中每个段落的句子边界[开始,结束]。
  • mentions: 提及数组,每个提及由[段落ID,开始,结束,集群ID]表示。
  • relations: 集群ID之间的二元关系数组[父,子]。
  • id: 主题ID。
  • hard_10hard_20 (仅在测试集中): 基于Levenshtein相似度的10%或20%最难主题的标志。
  • source: 主题来源,包括PapersWithCode、超类或手工。

数据分割

  • 训练/验证/测试:
    • 主题: 221/100/200
    • 文档: 9013/4120/8237
    • 提及: 10925/4874/10424
    • 集群: 4080/1867/3711
    • 关系: 2514/1747/2379

数据集创建

数据集创建者

  • 创建者: Arie Cattan, Sophie Johnson, Daniel Weld, Ido Dagan, Iz Beltagy, Doug Downey, Tom Hope

许可信息

  • 许可: Apache License 2.0

引用信息

@inproceedings{ cattan2021scico, title={SciCo: Hierarchical Cross-Document Coreference for Scientific Concepts}, author={Arie Cattan and Sophie Johnson and Daniel S. Weld and Ido Dagan and Iz Beltagy and Doug Downey and Tom Hope}, booktitle={3rd Conference on Automated Knowledge Base Construction}, year={2021}, url={https://openreview.net/forum?id=OFLbgUP04nC} }

搜集汇总
数据集介绍
main_image_url
构建方式
在科学文献信息抽取领域,跨文档共指消解是理解概念关联的关键任务。SciCo数据集的构建依托于计算机科学领域的学术论文,通过整合三种资源生成候选概念:低覆盖度的知识库PapersWithCode、基于噪声的超类提取器以及人工筛选的候选词。这一过程由领域专家进行标注,确保了概念提及的准确性和层次关系的可靠性,最终形成了包含丰富上下文和层级结构的数据集合。
特点
SciCo数据集聚焦于科学概念的复杂表达,其核心特点在于捕捉概念的多变形态与语义模糊性。数据集中每个主题不仅包含概念提及的聚类,还构建了概念间的层次关系,如方法与其子任务之间的父子关联。此外,数据集特别标注了测试集中基于编辑距离相似度划分的困难样本,为模型鲁棒性评估提供了挑战性基准。这些结构化标注为跨文档共指消解任务提供了细粒度的研究基础。
使用方法
该数据集适用于自然语言处理中的词元分类任务,特别是跨文档共指消解与结构化预测。研究人员可通过加载标准数据字段,如分词序列、提及位置、聚类标识及层次关系,训练或评估模型对科学概念的识别与关联能力。数据已划分为训练、验证与测试集,支持端到端的实验流程。使用前需遵循Apache 2.0许可,并参考原始论文以了解技术细节与应用场景。
背景与挑战
背景概述
在自然语言处理领域,跨文档共指消解旨在识别不同文档中指向同一实体的表述,对于科学文献理解尤为关键。SciCo数据集由Allen Institute for Artificial Intelligence的研究团队于2021年创建,核心研究聚焦于计算机科学论文中的方法与任务概念,构建层次化共指结构。该数据集通过整合低覆盖知识库、噪声超类提取器及人工筛选候选,推动了科学概念消解的技术前沿,为知识图谱构建与学术信息抽取提供了重要资源。
当前挑战
SciCo数据集致力于解决科学概念跨文档共指消解问题,其挑战在于科学概念常呈现形式多样性(如“类别条件图像合成”与“分类图像生成”指代相同技术)与语义模糊性(如“网络架构”在人工智能与系统研究中含义迥异)。构建过程中,研究团队面临候选生成困难,需融合多源异构数据并设计层次化标注框架,以准确捕捉概念间的复杂关联,确保数据质量与一致性。
常用场景
经典使用场景
在自然语言处理领域,跨文档共指消解是理解文本间语义关联的关键任务。SciCo数据集专为科学概念设计,其经典使用场景聚焦于计算机科学文献中方法与任务的共指消解。通过构建提及簇及其层次结构,该数据集支持模型识别同一概念在不同文档中的多样化表达,例如将“类别条件图像合成”与“分类图像生成”关联为同一方法。这一场景不仅提升了共指消解在学术文本中的精度,也为处理科学术语的复杂性和歧义性提供了标准化基准。
实际应用
SciCo数据集的实际应用场景广泛渗透于学术信息处理与知识管理领域。在学术搜索引擎中,它可增强对科学概念的聚合能力,帮助用户追踪同一方法在不同论文中的演进。科研机构利用该数据集构建领域知识库,自动化关联分散的研究成果,提升文献综述效率。此外,在科学出版平台中,它能辅助推荐相关研究或识别概念冲突,为学者提供更精准的学术服务,从而优化科学交流生态。
衍生相关工作
围绕SciCo数据集,已衍生出多项经典研究工作,推动了跨文档共指消解技术的演进。基于其层次化标注,研究者开发了新型神经网络模型,如结合图注意力机制的共指解析器,以更好地捕捉概念间的层级关系。同时,该数据集激发了科学概念标准化与归一化的探索,促进了领域自适应共指消解方法的发展。这些工作不仅扩展了SciCo的应用边界,也为后续科学文本理解数据集的设计提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作