jopan/SciDMT

Name: jopan/SciDMT
Creator: jopan
Published: 2024-03-27 17:39:00
License: 暂无描述

Hugging Face2024-03-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jopan/SciDMT

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了SciDMT，这是一个增强和扩展的科学提及检测语料库，相对于现有的相关资源有了显著的进步，SciDMT包含了对数据集（D）、方法（M）和任务（T）进行标注的科学文献。该语料库由两个部分组成：1) SciDMT主语料库，包含4.8万篇科学文章，其中有超过180万个弱标注提及注释，格式为文本跨度；2) 评估集，包含100篇科学文章，手动标注用于评估目的。据我们所知，SciDMT是用于科学实体提及检测的最大语料库。该语料库的规模和多样性对于开发和完善模型非常有用，例如索引科学论文、增强信息检索以及提高科学知识的可访问性。我们通过使用SciBERT和GPT-3.5等高级深度学习架构的实验展示了语料库的效用。我们的发现建立了性能基准，并突出了科学提及检测中未解决的挑战。SciDMT为研究社区提供了一个强大的基准，鼓励开发创新模型以进一步推动科学信息提取领域的发展。

提供机构：

jopan

原始信息汇总

数据集概述

基本信息

任务类别:
- 令牌分类
任务ID:
- 命名实体识别
- 实体链接分类
- 指代消解
许可: Apache 2.0
语言:
- 英语
标签:
- 命名实体识别
- 科学文献
易读名称: 大规模科学提及检测语料库
数据量: 1M<n<10M
标注创建者: 专家生成
配置:
- 默认配置
  - 所有数据: SciDMT_papers.csv
  - 测试数据: SciDMT_E_sentences.json

描述

SciDMT是一个增强和扩展的科学提及检测语料库，相较于现有资源有显著进步。该语料库包含用于数据集（D）、方法（M）和任务（T）的标注科学文档。语料库由两部分组成：

SciDMT主语料库，包含4.8万篇科学文章，超过180万个弱标注提及标注，格式为文本内跨度。
评估集，包含100篇科学文章，手动标注用于评估目的。

SciDMT是迄今为止最大的科学实体提及检测语料库。其规模和多样性对于开发和改进模型，如索引科学论文、增强信息检索和提高科学知识的可访问性等任务至关重要。通过实验展示了高级深度学习架构（如SciBERT和GPT-3.5）的语料库效用。我们的发现建立了性能基线，并强调了科学提及检测中未解决的挑战。SciDMT为研究社区提供了一个强大的基准，鼓励开发创新模型，进一步推动科学信息提取领域的发展。

文件

字典: ./SciDMT_dict.json
句子级机器学习输入:
- ./SciDMT_sentences.p
- ./SciDMT_E_sentences.json
- ./SciDMT_sentences_split.json
文档级输入:
- ./SciDMT_split.json
- ./SciDMT_E_human_annotations.json
- ./SciDMT_papers.csv

使用

SciDMT_demo.ipynb 描述了如何打开文件并打印文件结构。

下载

bash git clone https://huggingface.co/datasets/jopan/SciDMT

引用

相关引用信息将在近期发布。

搜集汇总

数据集介绍

构建方式

在科学文献信息抽取领域，构建高质量标注语料库是推动模型发展的基石。SciDMT语料库的构建采用了双轨制策略，其主体部分源自四万八千篇学术论文，通过弱监督方法自动标注了超过一百八十万处文本跨度，涵盖数据集、方法和任务三类科学实体提及。为保障评估的严谨性，研究团队额外人工精标注了一百篇论文构成独立评测集，这种规模与精度并重的构建方式，为模型训练与验证提供了可靠的数据基础。

特点

作为当前规模最大的科学实体提及检测语料库，SciDMT的显著特点在于其宏大的数据体量与精细的实体分类。语料库不仅收录了海量的弱标注样本，为模型训练提供丰富素材，还配备了经过专家校验的高质量评测集，确保了评估结果的权威性。其标注体系专注于科学研究中的核心要素——数据集、方法与任务，这种设计直接服务于科学文献索引、信息检索与知识可及性提升等实际应用场景，展现了高度的实用性与前瞻性。

使用方法

为便于研究社区利用，SciDMT提供了多层次的数据访问接口。用户可通过克隆代码仓库获取原始数据文件，包括文档级的元数据CSV文件、句子级的序列化标注数据以及专用于评测的JSON文件。随附的演示笔记本详细说明了文件结构与加载方式。该语料库适用于命名实体识别、实体链接与指代消解等多种任务，研究者可基于其建立性能基线，或用于训练及评估前沿的深度学习模型，如SciBERT与GPT-3.5，以探索科学信息抽取领域的未解挑战。

背景与挑战

背景概述

在科学文献信息抽取领域，准确识别与标注数据集、方法和任务等科学实体提及是构建智能学术知识系统的基石。SciDMT数据集由Huitong Pan、Qi Zhang等研究人员于2024年创建，旨在为科学提及检测提供大规模、多样化的标注资源。该数据集包含4.8万篇科学论文，涵盖超过180万个弱标注的实体提及，并辅以100篇人工精标评估集，其规模在同类语料库中居于领先地位。SciDMT不仅推动了命名实体识别、实体链接等核心任务的技术发展，还为科学论文索引、信息检索增强及知识可及性提升等应用场景提供了关键数据支持，对计算语言学和科学信息管理领域产生了深远影响。

当前挑战

科学提及检测面临的核心挑战在于科学实体的复杂性与动态演变性，例如同一方法在不同学科中可能具有多义表述，而新兴术语的快速涌现增加了模型泛化难度。SciDMT在构建过程中亦遭遇显著挑战：大规模语料的弱标注虽提升了数据覆盖度，但标注噪声与一致性难以保证，需通过人工评估集进行校准；同时，科学文献的跨领域特性要求语料在学科分布与实体类型上保持均衡，这对数据采集与标注策略提出了更高要求。这些挑战共同凸显了开发鲁棒且可扩展的科学信息抽取模型的必要性。

常用场景

经典使用场景

在科学文献信息提取领域，SciDMT数据集为识别学术文本中的数据集、方法和任务实体提供了大规模标注资源。其经典使用场景集中于训练和评估命名实体识别模型，通过弱标注与人工标注相结合的方式，支持模型在复杂科学语境下精准定位实体边界与类型，为自动化文献分析奠定基础。

实际应用

该数据集的实际应用场景广泛涉及学术知识管理系统的构建，例如自动化论文索引、增强学术搜索引擎的检索精度，以及提升科学知识可及性。通过集成SciBERT等先进架构，SciDMT能够驱动智能文献综述工具和学术推荐系统，助力研究人员高效追踪领域动态与核心成果。

衍生相关工作

基于SciDMT衍生的经典工作包括利用其基准性能开展的科学实体链接与共指消解研究。相关研究进一步探索了预训练语言模型在科学领域的适应性优化，并催生了针对多类型科学实体的联合提取框架，为后续大规模科学知识图谱的构建提供了方法论与数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集