five

BioDEX/BioDEX-Reactions

收藏
Hugging Face2024-01-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BioDEX/BioDEX-Reactions
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: title dtype: string - name: abstract dtype: string - name: fulltext dtype: string - name: reactions dtype: string - name: reactions_unmerged sequence: string - name: pmid dtype: string - name: fulltext_license dtype: string - name: title_normalized dtype: string - name: issue dtype: string - name: pages dtype: string - name: journal dtype: string - name: authors dtype: string - name: pubdate dtype: string - name: doi dtype: string - name: affiliations dtype: string - name: medline_ta dtype: string - name: nlm_unique_id dtype: string - name: issn_linking dtype: string - name: country dtype: string - name: mesh_terms dtype: string - name: publication_types dtype: string - name: chemical_list dtype: string - name: keywords dtype: string - name: references dtype: string - name: delete dtype: bool - name: pmc dtype: string - name: other_id dtype: string - name: safetyreportids sequence: int64 - name: fulltext_processed dtype: string splits: - name: test num_bytes: 199362361 num_examples: 4249 - name: train num_bytes: 501649361 num_examples: 11543 - name: validation num_bytes: 123988448 num_examples: 2886 download_size: 440721386 dataset_size: 825000170 --- # Dataset Card for "BioDEX-Reactions" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

### 数据集信息 #### 特征字段: - 字段名:标题(title),数据类型:字符串 - 字段名:摘要(abstract),数据类型:字符串 - 字段名:全文(fulltext),数据类型:字符串 - 字段名:反应数据(reactions),数据类型:字符串 - 字段名:未合并反应数据(reactions_unmerged),数据类型:字符串序列 - 字段名:PubMed标识符(pmid),数据类型:字符串 - 字段名:全文授权协议(fulltext_license),数据类型:字符串 - 字段名:标准化标题(title_normalized),数据类型:字符串 - 字段名:期刊期号(issue),数据类型:字符串 - 字段名:页码(pages),数据类型:字符串 - 字段名:期刊名称(journal),数据类型:字符串 - 字段名:作者信息(authors),数据类型:字符串 - 字段名:出版日期(pubdate),数据类型:字符串 - 字段名:数字对象标识符(doi),数据类型:字符串 - 字段名:作者机构(affiliations),数据类型:字符串 - 字段名:MEDLINE期刊标准缩写(medline_ta),数据类型:字符串 - 字段名:美国国家医学图书馆唯一标识(nlm_unique_id),数据类型:字符串 - 字段名:链接ISSN(issn_linking),数据类型:字符串 - 字段名:出版国家(country),数据类型:字符串 - 字段名:医学主题词(mesh_terms),数据类型:字符串 - 字段名:出版类型(publication_types),数据类型:字符串 - 字段名:化学品列表(chemical_list),数据类型:字符串 - 字段名:关键词(keywords),数据类型:字符串 - 字段名:参考文献(references),数据类型:字符串 - 字段名:删除标记(delete),数据类型:布尔值 - 字段名:PubMed Central标识符(pmc),数据类型:字符串 - 字段名:其他标识(other_id),数据类型:字符串 - 字段名:安全报告ID(safetyreportids),数据类型:64位整数序列 - 字段名:处理后全文(fulltext_processed),数据类型:字符串 #### 数据集划分: - 划分名称:测试集(test),字节大小:199362361,样本数量:4249 - 划分名称:训练集(train),字节大小:501649361,样本数量:11543 - 划分名称:验证集(validation),字节大小:123988448,样本数量:2886 总下载大小:440721386,总数据集大小:825000170 --- # 「BioDEX-Reactions」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
BioDEX
原始信息汇总

数据集概述

数据集信息

特征

  • title: 字符串类型
  • abstract: 字符串类型
  • fulltext: 字符串类型
  • reactions: 字符串类型
  • reactions_unmerged: 字符串序列
  • pmid: 字符串类型
  • fulltext_license: 字符串类型
  • title_normalized: 字符串类型
  • issue: 字符串类型
  • pages: 字符串类型
  • journal: 字符串类型
  • authors: 字符串类型
  • pubdate: 字符串类型
  • doi: 字符串类型
  • affiliations: 字符串类型
  • medline_ta: 字符串类型
  • nlm_unique_id: 字符串类型
  • issn_linking: 字符串类型
  • country: 字符串类型
  • mesh_terms: 字符串类型
  • publication_types: 字符串类型
  • chemical_list: 字符串类型
  • keywords: 字符串类型
  • references: 字符串类型
  • delete: 布尔类型
  • pmc: 字符串类型
  • other_id: 字符串类型
  • safetyreportids: 整数序列
  • fulltext_processed: 字符串类型

数据分割

  • test:
    • 字节数: 199362361
    • 样本数: 4249
  • train:
    • 字节数: 501649361
    • 样本数: 11543
  • validation:
    • 字节数: 123988448
    • 样本数: 2886

数据集大小

  • 下载大小: 440721386 字节
  • 数据集大小: 825000170 字节
搜集汇总
数据集介绍
main_image_url
构建方式
BioDEX-Reactions数据集的构建基于生物医学文献的深度挖掘,其核心方法是从PubMed Central(PMC)开放获取的学术论文中系统提取化学反应信息。该过程涉及对全文文本的自动化解析,利用自然语言处理技术识别并标注文中的化学反应描述,生成结构化的反应字符串及未合并的反应序列。数据集通过严谨的预处理流程,整合了文章的元数据,如标题、摘要、作者、期刊信息及MeSH术语等,确保了数据来源的权威性与完整性。构建过程注重数据的质量控制,最终形成了包含训练、验证和测试三个标准划分的大规模语料库。
特点
BioDEX-Reactions数据集在生物信息学领域展现出鲜明的特色,其核心在于提供了从生物医学文献全文直接提取的、丰富的化学反应结构化表示。数据集不仅包含标准化的反应字符串,还保留了未合并的原始反应序列,为研究反应的多步骤过程或变体提供了灵活性。此外,数据集深度融合了丰富的文献元数据,如DOI、PMID、作者、期刊及化学物质列表,使得数据具备高度的可追溯性和上下文关联性。其规模庞大,涵盖万余篇文献,为训练和评估复杂的化学反应信息抽取与理解模型奠定了坚实基础。
使用方法
该数据集主要服务于生物医学文本挖掘与计算化学领域的研究。使用者可将其用于训练和评估端到端的化学反应信息抽取模型,例如识别文献中的反应物、产物、条件及催化剂。数据集的标准划分便于进行模型的训练、验证与性能测试。研究人员可通过访问反应字符串与全文的对应关系,深入分析反应描述的上下文语义。此外,丰富的元数据支持多模态研究,例如结合文本与化学结构进行联合分析。在使用时,需遵循相关文献的版权许可,并注意数据预处理中可能存在的噪声。
背景与挑战
背景概述
BioDEX/BioDEX-Reactions数据集是生物医学文献挖掘领域的重要资源,专注于从科学文献中提取化学反应信息。该数据集由相关研究机构构建,旨在应对生物医学文本中复杂化学实体与反应关系识别的核心研究问题。通过整合大量经过标注的文献全文、摘要及反应数据,它为自然语言处理模型在生物化学领域的应用提供了结构化训练基础,显著推动了自动化信息抽取技术的发展,并增强了科研文献的知识发现能力。
当前挑战
该数据集致力于解决生物医学文本中化学反应实体识别与关系抽取的挑战,其复杂性源于专业术语的多样性和反应描述的隐含性。在构建过程中,面临的主要困难包括从非结构化文献中准确解析并标准化化学反应信息,以及确保不同来源数据间的一致性与完整性。此外,处理大规模全文数据时,需克服标注成本高昂与语义歧义消除等技术瓶颈,这对数据集的可靠性与实用性构成了持续考验。
常用场景
经典使用场景
在生物医学信息抽取领域,BioDEX/BioDEX-Reactions数据集以其丰富的生物化学反应标注信息,成为训练和评估自然语言处理模型的经典资源。该数据集从PubMed文献中提取反应实体,涵盖底物、产物、催化剂等关键元素,为研究者提供了结构化的反应表示。通过这一数据集,机器学习模型能够学习识别和解析生物医学文本中的复杂反应网络,进而推动自动化信息抽取技术的发展。
实际应用
在实际应用中,BioDEX-Reactions数据集被广泛用于构建智能文献检索系统和反应数据库。例如,在药物研发过程中,研究人员利用该数据集训练模型,自动从海量文献中提取潜在药物反应路径,辅助靶点识别和化合物筛选。此外,它还能集成到生物信息学平台中,为代谢工程和合成生物学提供数据支持,提升实验设计的效率与准确性。
衍生相关工作
基于BioDEX-Reactions数据集,衍生出多项经典研究工作,包括反应预测模型、生物医学知识图谱的自动构建以及多模态信息融合方法。这些工作不仅扩展了数据集的适用范围,还推动了深度学习在生物医学文本挖掘中的创新应用。例如,一些研究利用该数据集训练Transformer架构,实现了高精度的反应类型分类,为后续的生物信息学工具开发奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作