allenai/scico

Name: allenai/scico
Creator: allenai
Published: 2023-01-10 20:23:18
License: 暂无描述

Hugging Face2023-01-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/allenai/scico

下载链接

链接失效反馈

官方服务：

资源简介：

SciCo数据集包含从计算机科学论文中提取的概念提及及其层次结构。该数据集主要用于跨文档共指消解任务，特别是针对科学概念的共指消解。科学概念通常具有多样化的形式（例如，类条件图像合成和分类图像生成）或具有歧义性（例如，AI中的网络架构与系统研究中的网络架构）。为了构建SciCo，开发了一种新的候选生成方法，该方法基于三个资源：低覆盖率的知识库、噪声超类提取器和手动筛选的候选概念。数据集的语言为英语，且是单语言的。数据集的结构包括多个字段，如`flatten_tokens`、`flatten_mentions`、`tokens`等，并且提供了训练集、验证集和测试集的详细统计信息。

The SciCo dataset consists of concept mentions and their hierarchical structures extracted from computer science papers. It is primarily designed for cross-document coreference resolution tasks, specifically coreference resolution targeting scientific concepts. Scientific concepts typically present diverse forms (e.g., class-conditional image synthesis and conditional image generation) or exhibit ambiguity (e.g., "network architecture" in the field of AI versus "network architecture" in systems research). To construct the SciCo dataset, a novel candidate generation approach was developed, which relies on three resources: a low-coverage knowledge base, a noisy hypernym extractor, and manually filtered candidate concepts. The dataset is in English and is a monolingual dataset. Its structure encompasses multiple fields such as `flatten_tokens`, `flatten_mentions`, `tokens`, and so on, and detailed statistical information for the training, validation, and test sets is provided.

提供机构：

allenai

原始信息汇总

数据集概述：SciCo

数据集描述

数据集总结

内容: SciCo包含上下文中的提及集群及其层次结构。数据来源于计算机科学论文，提及的概念主要是CS领域的方法和任务。
挑战: 科学概念形式多样且可能存在歧义。
构建方法: 利用低覆盖率知识库、噪声超类提取器和手工候选集进行候选生成。

支持的任务和排行榜

信息待补充

语言

语言: 英语

数据集结构

数据实例

信息待补充

数据字段

flatten_tokens: 主题中所有令牌的单一列表。
flatten_mentions: 提及数组，每个提及由[开始，结束，集群ID]表示。
tokens: 段落数组。
doc_ids: tokens中每个段落的文档ID。
metadata: 每个文档ID的元数据。
sentences: tokens中每个段落的句子边界[开始，结束]。
mentions: 提及数组，每个提及由[段落ID，开始，结束，集群ID]表示。
relations: 集群ID之间的二元关系数组[父，子]。
id: 主题ID。
hard_10 和 hard_20 (仅在测试集中): 基于Levenshtein相似度的10%或20%最难主题的标志。
source: 主题来源，包括PapersWithCode、超类或手工。

数据分割

训练/验证/测试:
- 主题: 221/100/200
- 文档: 9013/4120/8237
- 提及: 10925/4874/10424
- 集群: 4080/1867/3711
- 关系: 2514/1747/2379

数据集创建

数据集创建者

创建者: Arie Cattan, Sophie Johnson, Daniel Weld, Ido Dagan, Iz Beltagy, Doug Downey, Tom Hope

许可信息

许可: Apache License 2.0

引用信息

@inproceedings{ cattan2021scico, title={SciCo: Hierarchical Cross-Document Coreference for Scientific Concepts}, author={Arie Cattan and Sophie Johnson and Daniel S. Weld and Ido Dagan and Iz Beltagy and Doug Downey and Tom Hope}, booktitle={3rd Conference on Automated Knowledge Base Construction}, year={2021}, url={https://openreview.net/forum?id=OFLbgUP04nC} }

搜集汇总

数据集介绍

构建方式

在科学文献信息抽取领域，跨文档共指消解是理解概念关联的关键任务。SciCo数据集的构建依托于计算机科学领域的学术论文，通过整合三种资源生成候选概念：低覆盖度的知识库PapersWithCode、基于噪声的超类提取器以及人工筛选的候选词。这一过程由领域专家进行标注，确保了概念提及的准确性和层次关系的可靠性，最终形成了包含丰富上下文和层级结构的数据集合。

特点

SciCo数据集聚焦于科学概念的复杂表达，其核心特点在于捕捉概念的多变形态与语义模糊性。数据集中每个主题不仅包含概念提及的聚类，还构建了概念间的层次关系，如方法与其子任务之间的父子关联。此外，数据集特别标注了测试集中基于编辑距离相似度划分的困难样本，为模型鲁棒性评估提供了挑战性基准。这些结构化标注为跨文档共指消解任务提供了细粒度的研究基础。

使用方法

该数据集适用于自然语言处理中的词元分类任务，特别是跨文档共指消解与结构化预测。研究人员可通过加载标准数据字段，如分词序列、提及位置、聚类标识及层次关系，训练或评估模型对科学概念的识别与关联能力。数据已划分为训练、验证与测试集，支持端到端的实验流程。使用前需遵循Apache 2.0许可，并参考原始论文以了解技术细节与应用场景。

背景与挑战

背景概述

在自然语言处理领域，跨文档共指消解旨在识别不同文档中指向同一实体的表述，对于科学文献理解尤为关键。SciCo数据集由Allen Institute for Artificial Intelligence的研究团队于2021年创建，核心研究聚焦于计算机科学论文中的方法与任务概念，构建层次化共指结构。该数据集通过整合低覆盖知识库、噪声超类提取器及人工筛选候选，推动了科学概念消解的技术前沿，为知识图谱构建与学术信息抽取提供了重要资源。

当前挑战

SciCo数据集致力于解决科学概念跨文档共指消解问题，其挑战在于科学概念常呈现形式多样性（如“类别条件图像合成”与“分类图像生成”指代相同技术）与语义模糊性（如“网络架构”在人工智能与系统研究中含义迥异）。构建过程中，研究团队面临候选生成困难，需融合多源异构数据并设计层次化标注框架，以准确捕捉概念间的复杂关联，确保数据质量与一致性。

常用场景

经典使用场景

在自然语言处理领域，跨文档共指消解是理解文本间语义关联的关键任务。SciCo数据集专为科学概念设计，其经典使用场景聚焦于计算机科学文献中方法与任务的共指消解。通过构建提及簇及其层次结构，该数据集支持模型识别同一概念在不同文档中的多样化表达，例如将“类别条件图像合成”与“分类图像生成”关联为同一方法。这一场景不仅提升了共指消解在学术文本中的精度，也为处理科学术语的复杂性和歧义性提供了标准化基准。

实际应用

SciCo数据集的实际应用场景广泛渗透于学术信息处理与知识管理领域。在学术搜索引擎中，它可增强对科学概念的聚合能力，帮助用户追踪同一方法在不同论文中的演进。科研机构利用该数据集构建领域知识库，自动化关联分散的研究成果，提升文献综述效率。此外，在科学出版平台中，它能辅助推荐相关研究或识别概念冲突，为学者提供更精准的学术服务，从而优化科学交流生态。

衍生相关工作

围绕SciCo数据集，已衍生出多项经典研究工作，推动了跨文档共指消解技术的演进。基于其层次化标注，研究者开发了新型神经网络模型，如结合图注意力机制的共指解析器，以更好地捕捉概念间的层级关系。同时，该数据集激发了科学概念标准化与归一化的探索，促进了领域自适应共指消解方法的发展。这些工作不仅扩展了SciCo的应用边界，也为后续科学文本理解数据集的设计提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集