PDBEurope/protein_structure_NER_model_v1.4|生物学数据集|蛋白质结构分析数据集

hugging_face2023-11-01 更新2024-03-04 收录

生物学

蛋白质结构分析

下载链接：

https://hf-mirror.com/datasets/PDBEurope/protein_structure_NER_model_v1.4

下载链接

链接失效反馈

资源简介：

该数据集用于训练蛋白质结构命名实体识别（NER）模型，包含19种不同的实体类型，如chemical、gene、protein等。数据以IOB格式准备，并用于训练、开发和测试。此外，数据集还提供了JSON、XML和CSV格式的注释文件。注释是使用TeamTat工具进行的，并转换为多种格式。数据集的文档和注释可以通过BioC XML文件在TeamTat工具中查看。数据集还提供了详细的文件结构和注释格式说明。

提供机构：

PDBEurope

原始信息汇总

数据集概述

数据集信息

许可证: MIT
语言: 英语
标签: 生物学, 蛋白质结构, 标记分类
配置:
- 配置名称: protein_structure_NER_model_v1.4
- 数据文件:
  - 训练集: annotation_IOB/train.tsv
  - 开发集: annotation_IOB/dev.tsv
  - 测试集: annotation_IOB/test.tsv

实体类型

数据集中包含19种不同的实体类型：

chemical
complex_assembly
evidence
experimental_method
gene
mutant
oligomeric_state
protein
protein_state
protein_type
ptm
residue_name
residue_name_number
residue_number
residue_range
site
species
structure_element
taxonomy_domain

数据格式

数据以IOB格式准备，用于训练、开发和测试。此外，还提供了JSON、XML和CSV格式的数据。

注释信息

注释使用免费的注释工具TeamTat进行，文档以BioC XML格式下载，然后转换为IOB、JSON和CSV格式。

注释数量和句子数量

文档ID	BioC XML注释数量	IOB/JSON/CSV注释数量	句子数量
PMC4850273	1121	1121	204
PMC4784909	865	865	204
PMC4850288	716	708	146
PMC4887326	933	933	152
PMC4833862	1044	1044	192
PMC4832331	739	718	134
PMC4852598	1229	1218	250
PMC4786784	1549	1549	232
PMC4848090	987	985	191
PMC4792962	1268	1268	256
PMC4841544	1434	1433	273
PMC4772114	825	825	166
PMC4872110	1276	1276	253
PMC4848761	887	883	252
PMC4919469	1628	1616	336
PMC4880283	771	771	166
PMC4937829	625	625	181
PMC4968113	1238	1238	292
PMC4854314	481	471	139
PMC4871749	383	383	76
总计	19999	19930	4095

数据文件

原始BioC XML文件

目录: raw_BioC_XML
命名规则: unique PubMedCentral ID_raw.xml

注释IOB格式

目录: annotation_IOB
文件:
- all.tsv: 所有句子和注释，用于创建模型 "PDBEurope/BiomedNLP-PubMedBERT-ProteinStructure-NER-v1.4"，包含4095个句子
- train.tsv: 训练子集，包含2866个句子
- dev.tsv: 开发子集，包含614个句子
- test.tsv: 测试子集，包含615个句子
总注释数量: 19930

注释BioC JSON格式

目录: annotated_BioC_JSON
命名规则: unique PubMedCentral ID_ann.json
内容:
- sourceid: 唯一PubMedCentral ID的数字部分
- text: 出版物的完整原始文本
- denotations: 文本的所有注释列表

注释BioC XML格式

目录: annotated_BioC_XML
命名规则: unique PubMedCentral ID_ann.xml
关键标签:
- passage: 包含注释的文本段落
- offset: 段落偏移量，用于确定注释的起始和结束位置
- text: 段落的原始文本

注释CSV格式

目录: annotation_CSV
命名规则: unique PubMedCentral ID.csv
列标签:
- anno_start: 注释的起始字符位置
- anno_end: 注释的结束字符位置
- anno_text: 注释覆盖的文本
- entity_type: 注释的实体类型
- sentence: 包含注释的句子文本
- section: 注释所在的出版物部分

注释JSON格式

目录: annotation_JSON
文件名: annotations.json
内容:
- PMC4850273: 唯一PubMedCentral ID
- annotations: 文档的相关注释句子列表，每个句子包含以下子键:
  - sid: 唯一句子ID
  - sent: 句子文本
  - section: 句子所在的出版物部分
  - ner: 嵌套的注释列表，每个子列表包含起始字符位置、结束字符位置、注释文本和实体类型

AI搜集汇总

数据集介绍

构建方式

该数据集通过使用免费的标注工具TeamTat进行标注，并将文档以BioC XML格式下载后转换为IOB格式。标注过程涵盖了19种不同的实体类型，包括化学物质、基因、蛋白质等。数据集的构建包括训练、开发和测试三个子集，分别存储在annotation_IOB目录下的train.tsv、dev.tsv和test.tsv文件中。此外，数据集还提供了JSON、XML和CSV格式的文件，便于不同需求下的数据处理和分析。

特点

该数据集的显著特点在于其丰富的实体类型和多样的数据格式。涵盖了从化学物质到生物学物种的19种实体类型，使得该数据集在生物医学领域的命名实体识别任务中具有广泛的应用价值。同时，数据集提供了IOB、JSON、XML和CSV等多种格式，满足了不同研究者和开发者的需求，增强了数据的可访问性和实用性。

使用方法

使用该数据集时，用户可以根据需求选择不同的数据格式进行处理。对于命名实体识别任务，推荐使用IOB格式的数据文件，这些文件已经过预处理，适合直接用于模型训练和评估。对于需要详细标注信息的场景，可以使用BioC JSON或XML格式的文件，这些文件包含了详细的标注信息和上下文文本。此外，CSV格式的文件提供了简洁的标注和句子信息，适合快速数据分析和处理。

背景与挑战

背景概述

在生物信息学领域，蛋白质结构命名实体识别（NER）是一个关键任务，旨在从生物医学文献中提取与蛋白质结构相关的实体。PDBEurope/protein_structure_NER_model_v1.4数据集由PDBEurope团队创建，旨在支持这一领域的研究。该数据集包含了19种不同的实体类型，如化学物质、基因、蛋白质状态等，这些数据以IOB格式进行标注，并用于训练、开发和测试模型。数据集的构建基于PubMedCentral的文献，通过TeamTat工具进行标注，并转换为多种格式，如BioC XML、JSON和CSV，以便于不同研究需求的使用。

当前挑战

尽管PDBEurope/protein_structure_NER_model_v1.4数据集在蛋白质结构NER领域提供了丰富的资源，但其构建过程中仍面临多项挑战。首先，实体类型的多样性和复杂性增加了标注的难度，需要高度专业化的知识。其次，数据格式的多样性虽然增加了数据集的适用性，但也带来了数据一致性和转换过程中的潜在错误。此外，数据集的规模和质量直接影响模型的性能，如何确保标注的准确性和覆盖的全面性是持续面临的挑战。最后，随着生物医学领域的快速发展，数据集需要不断更新以保持其时效性和相关性。

常用场景

经典使用场景

在生物信息学领域，PDBEurope/protein_structure_NER_model_v1.4数据集的经典使用场景主要集中在蛋白质结构命名实体识别（NER）任务中。该数据集通过提供丰富的蛋白质相关实体标注，如化学物质、基因、突变等，为研究人员训练和验证蛋白质结构NER模型提供了宝贵的资源。这些模型在解析生物医学文献中的蛋白质相关信息时表现出色，极大地促进了生物信息学研究的进展。

实际应用

在实际应用中，PDBEurope/protein_structure_NER_model_v1.4数据集被广泛用于生物医学文献的自动化信息提取。例如，制药公司和研究机构利用该数据集训练的模型，快速从海量文献中识别和提取与特定蛋白质相关的信息，从而加速新药研发和疾病机制研究。此外，该数据集还支持生物数据库的自动更新和维护，确保数据的及时性和准确性。

衍生相关工作

基于PDBEurope/protein_structure_NER_model_v1.4数据集，研究人员开发了多种相关的经典工作。例如，一些研究团队利用该数据集训练的模型，进一步开发了蛋白质相互作用网络分析工具，用于揭示蛋白质在细胞中的功能和相互作用。此外，该数据集还启发了基于深度学习的蛋白质结构预测模型的研究，推动了蛋白质组学领域的技术进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录