allenai/scico
收藏Hugging Face2023-01-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/scico
下载链接
链接失效反馈官方服务:
资源简介:
SciCo数据集包含从计算机科学论文中提取的概念提及及其层次结构。该数据集主要用于跨文档共指消解任务,特别是针对科学概念的共指消解。科学概念通常具有多样化的形式(例如,类条件图像合成和分类图像生成)或具有歧义性(例如,AI中的网络架构与系统研究中的网络架构)。为了构建SciCo,开发了一种新的候选生成方法,该方法基于三个资源:低覆盖率的知识库、噪声超类提取器和手动筛选的候选概念。数据集的语言为英语,且是单语言的。数据集的结构包括多个字段,如`flatten_tokens`、`flatten_mentions`、`tokens`等,并且提供了训练集、验证集和测试集的详细统计信息。
The SciCo dataset consists of concept mentions and their hierarchical structures extracted from computer science papers. It is primarily designed for cross-document coreference resolution tasks, specifically coreference resolution targeting scientific concepts. Scientific concepts typically present diverse forms (e.g., class-conditional image synthesis and conditional image generation) or exhibit ambiguity (e.g., "network architecture" in the field of AI versus "network architecture" in systems research). To construct the SciCo dataset, a novel candidate generation approach was developed, which relies on three resources: a low-coverage knowledge base, a noisy hypernym extractor, and manually filtered candidate concepts. The dataset is in English and is a monolingual dataset. Its structure encompasses multiple fields such as `flatten_tokens`, `flatten_mentions`, `tokens`, and so on, and detailed statistical information for the training, validation, and test sets is provided.
提供机构:
allenai
原始信息汇总
数据集概述:SciCo
数据集描述
数据集总结
- 内容: SciCo包含上下文中的提及集群及其层次结构。数据来源于计算机科学论文,提及的概念主要是CS领域的方法和任务。
- 挑战: 科学概念形式多样且可能存在歧义。
- 构建方法: 利用低覆盖率知识库、噪声超类提取器和手工候选集进行候选生成。
支持的任务和排行榜
- 信息待补充
语言
- 语言: 英语
数据集结构
数据实例
- 信息待补充
数据字段
flatten_tokens: 主题中所有令牌的单一列表。flatten_mentions: 提及数组,每个提及由[开始,结束,集群ID]表示。tokens: 段落数组。doc_ids:tokens中每个段落的文档ID。metadata: 每个文档ID的元数据。sentences:tokens中每个段落的句子边界[开始,结束]。mentions: 提及数组,每个提及由[段落ID,开始,结束,集群ID]表示。relations: 集群ID之间的二元关系数组[父,子]。id: 主题ID。hard_10和hard_20(仅在测试集中): 基于Levenshtein相似度的10%或20%最难主题的标志。source: 主题来源,包括PapersWithCode、超类或手工。
数据分割
- 训练/验证/测试:
- 主题: 221/100/200
- 文档: 9013/4120/8237
- 提及: 10925/4874/10424
- 集群: 4080/1867/3711
- 关系: 2514/1747/2379
数据集创建
数据集创建者
- 创建者: Arie Cattan, Sophie Johnson, Daniel Weld, Ido Dagan, Iz Beltagy, Doug Downey, Tom Hope
许可信息
- 许可: Apache License 2.0
引用信息
@inproceedings{ cattan2021scico, title={SciCo: Hierarchical Cross-Document Coreference for Scientific Concepts}, author={Arie Cattan and Sophie Johnson and Daniel S. Weld and Ido Dagan and Iz Beltagy and Doug Downey and Tom Hope}, booktitle={3rd Conference on Automated Knowledge Base Construction}, year={2021}, url={https://openreview.net/forum?id=OFLbgUP04nC} }
搜集汇总
数据集介绍

构建方式
在科学文献信息抽取领域,跨文档共指消解是理解概念关联的关键任务。SciCo数据集的构建依托于计算机科学领域的学术论文,通过整合三种资源生成候选概念:低覆盖度的知识库PapersWithCode、基于噪声的超类提取器以及人工筛选的候选词。这一过程由领域专家进行标注,确保了概念提及的准确性和层次关系的可靠性,最终形成了包含丰富上下文和层级结构的数据集合。
特点
SciCo数据集聚焦于科学概念的复杂表达,其核心特点在于捕捉概念的多变形态与语义模糊性。数据集中每个主题不仅包含概念提及的聚类,还构建了概念间的层次关系,如方法与其子任务之间的父子关联。此外,数据集特别标注了测试集中基于编辑距离相似度划分的困难样本,为模型鲁棒性评估提供了挑战性基准。这些结构化标注为跨文档共指消解任务提供了细粒度的研究基础。
使用方法
该数据集适用于自然语言处理中的词元分类任务,特别是跨文档共指消解与结构化预测。研究人员可通过加载标准数据字段,如分词序列、提及位置、聚类标识及层次关系,训练或评估模型对科学概念的识别与关联能力。数据已划分为训练、验证与测试集,支持端到端的实验流程。使用前需遵循Apache 2.0许可,并参考原始论文以了解技术细节与应用场景。
背景与挑战
背景概述
在自然语言处理领域,跨文档共指消解旨在识别不同文档中指向同一实体的表述,对于科学文献理解尤为关键。SciCo数据集由Allen Institute for Artificial Intelligence的研究团队于2021年创建,核心研究聚焦于计算机科学论文中的方法与任务概念,构建层次化共指结构。该数据集通过整合低覆盖知识库、噪声超类提取器及人工筛选候选,推动了科学概念消解的技术前沿,为知识图谱构建与学术信息抽取提供了重要资源。
当前挑战
SciCo数据集致力于解决科学概念跨文档共指消解问题,其挑战在于科学概念常呈现形式多样性(如“类别条件图像合成”与“分类图像生成”指代相同技术)与语义模糊性(如“网络架构”在人工智能与系统研究中含义迥异)。构建过程中,研究团队面临候选生成困难,需融合多源异构数据并设计层次化标注框架,以准确捕捉概念间的复杂关联,确保数据质量与一致性。
常用场景
经典使用场景
在自然语言处理领域,跨文档共指消解是理解文本间语义关联的关键任务。SciCo数据集专为科学概念设计,其经典使用场景聚焦于计算机科学文献中方法与任务的共指消解。通过构建提及簇及其层次结构,该数据集支持模型识别同一概念在不同文档中的多样化表达,例如将“类别条件图像合成”与“分类图像生成”关联为同一方法。这一场景不仅提升了共指消解在学术文本中的精度,也为处理科学术语的复杂性和歧义性提供了标准化基准。
实际应用
SciCo数据集的实际应用场景广泛渗透于学术信息处理与知识管理领域。在学术搜索引擎中,它可增强对科学概念的聚合能力,帮助用户追踪同一方法在不同论文中的演进。科研机构利用该数据集构建领域知识库,自动化关联分散的研究成果,提升文献综述效率。此外,在科学出版平台中,它能辅助推荐相关研究或识别概念冲突,为学者提供更精准的学术服务,从而优化科学交流生态。
衍生相关工作
围绕SciCo数据集,已衍生出多项经典研究工作,推动了跨文档共指消解技术的演进。基于其层次化标注,研究者开发了新型神经网络模型,如结合图注意力机制的共指解析器,以更好地捕捉概念间的层级关系。同时,该数据集激发了科学概念标准化与归一化的探索,促进了领域自适应共指消解方法的发展。这些工作不仅扩展了SciCo的应用边界,也为后续科学文本理解数据集的设计提供了重要参考。
以上内容由遇见数据集搜集并总结生成



