GENIA corpus|生物医学文献数据集|文本标注数据集

github2019-12-16 更新2024-05-31 收录

生物医学文献

文本标注

下载链接：

https://github.com/SaraTouzani/Projet_Textmining_GENIAcorpus

下载链接

链接失效反馈

资源简介：

包含1999篇来自PubMed的科学文章摘要的数据集，用于自动标注科学文章。

A dataset comprising 1999 scientific article abstracts sourced from PubMed, intended for the automatic annotation of scientific articles.

创建时间：

2019-11-11

原始信息汇总

数据集概述

数据集名称

Projet_Textmining_GENIAcorpus

数据集内容

包含1999篇来自PubMed的科学论文摘要，已进行标注。

数据集用途

用于自动标注科学论文文章。

AI搜集汇总

数据集介绍

构建方式

在生物医学文本挖掘领域，GENIA语料库的构建采用了深度标注的策略。该语料库的构建者从PubMed数据库中筛选出1999篇科学文献摘要，进而针对这些摘要进行详尽的语义标注，以服务于生物医学实体识别与关系抽取等任务。

使用方法

使用GENIA语料库时，研究人员可以直接利用其提供的预标注数据，进行模型训练与性能评估。此外，该语料库同样适用于开发自动化文本挖掘工具，以辅助快速准确地从生物医学文献中提取有用信息。用户需遵循语料库的使用条款，以确保数据使用的合法合规。

背景与挑战

背景概述

在生物医学文本挖掘领域，GENIA语料库的构建成为了一个里程碑。该语料库创建于21世纪初，由日本东京工业大学等机构的研究人员共同开发。其旨在通过提供1999篇来自PubMed的科学文献摘要及其详细注释，促进生物医学领域的信息提取和实体识别研究。GENIA corpus不仅在学术界产生了深远的影响，也为自然语言处理技术在生物医学领域的应用提供了坚实的基础。

当前挑战

尽管GENIA corpus为生物医学文本挖掘提供了宝贵的资源，但该数据集在构建和应用过程中也面临诸多挑战。首先，生物医学领域的专业术语丰富且复杂，对注释的质量和一致性提出了极高的要求。其次，构建过程中如何确保注释的准确性和可重复性，也是一项艰巨的任务。此外，数据集规模有限也限制了其在更大范围内的应用，这些挑战均需后续研究不断探索和克服。

常用场景

经典使用场景

在生物医学文本挖掘领域，GENIA corpus以其精细的注释和庞大的规模，成为研究者们开展相关研究的基石。该数据集经典的使用场景在于，通过对科学文献的深度标注，为构建自动化文本挖掘工具提供了可靠的训练基础，进而辅助研究人员从海量的生物医学文献中提取关键信息。

解决学术问题

GENIA corpus解决了学术研究中如何高效地从生物医学文献中提取结构化信息的难题。它通过提供预先注释的生物医学摘要，助力研究者开发出能够准确识别生物实体、关系以及事件的高质量信息提取系统，从而推动了生物医学文本挖掘技术的发展。

实际应用

在实际应用中，GENIA corpus为生物医学领域的知识发现和文本理解提供了有力支撑。基于该数据集开发的文本挖掘工具能够协助科研人员快速定位相关研究，促进科研成果的整合与创新，对于加速生物医学研究具有重要意义。

数据集最近研究

最新研究方向

在生物医学文本挖掘领域，GENIA语料库作为一项重要的资源，近期研究集中于开发自动化注释工具，以提升对科学文献中生物实体和关系的识别精度。该数据集的利用不仅推动了生物实体识别和关系抽取技术的发展，而且对构建生物知识图谱、促进精准医疗研究具有重要的实际意义。当前，GENIA语料库正被用于探索深度学习技术在生物医学文本挖掘中的应用，以及跨语言和跨领域的知识发现研究，为生物信息学领域的知识获取与整合提供了强有力的支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MeSH

MeSH（医学主题词表）是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念，用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息，广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国逐日格点降水数据集V2（1960–2024，0.1°）

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据，并纳入11个降水相关变量，用于表征降水的相关性。数据集采用改进的反距离加权方法，并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集（包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS）表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证，发现该数据集显著提高了降水测量精度，降低了降水事件的高估，为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据，覆盖整个中国大陆（18°N–54°N，72°E–136°E）。该数据集涵盖1960–2024年，并将每年持续更新。日值数据以NetCDF格式提供，为了方便用户，我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心收录

IXI Dataset

IXI数据集包含近600张来自正常健康受试者的MRI图像，包括T1、T2、PD加权图像、MRA图像和扩散加权图像。数据集在Hammersmith医院、Guy’s医院和Institute of Psychiatry使用不同系统进行扫描。

github 收录