five

ChemBE (Chemical Bond Energy) corpus|化学键数据集|计算化学数据集

收藏
arXiv2019-05-13 更新2024-08-06 收录
化学键
计算化学
下载链接:
http://arxiv.org/abs/1905.05615v1
下载链接
链接失效反馈
资源简介:
ChemBE数据集是由中国科学院国家科学图书馆和清华大学化学系合作构建的,专注于化学键领域的科学论文数据集。该数据集包含1900篇化学键领域的全篇论文,经过多位化学领域专家的标注,涵盖了化合物、溶剂、反应、方法、化学键、键能(pKa)和键能值(pKa值)等7种实体类型。数据集的创建旨在解决现有数据集在化学领域特别是计算化学领域的不足,通过精细的标注和实体关系提取,支持计算化学的深入研究。
提供机构:
中国科学院国家科学图书馆
创建时间:
2019-05-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
ChemBE数据集的构建旨在满足计算化学领域对化学键能值自动提取的需求。该数据集由来自化学键领域的1900篇完整论文组成,并由多位化学领域的专家进行了标注。数据集包含了7种实体类型:化合物、溶剂、方法、反应、化学键、键能(pKa)和键能值(pKa值)。为了确保数据集的质量,专家们对数据进行了独立的审查,并进行了互注者协议以确保质量。
特点
ChemBE数据集的主要特点是其专注于化学键领域的实体和关系提取。它包含了丰富的化学实体和关系,为计算化学领域的研究提供了宝贵的资源。此外,ChemBE数据集还采用了BERT-CRF模型进行实体和关系的联合提取,取得了优异的性能。
使用方法
ChemBE数据集可以用于化学实体和关系的提取,以及构建化学科学数据链。用户可以使用BERT-CRF模型进行实体和关系的联合提取,也可以使用字典和规则进行表中的实体和关系提取。此外,ChemBE数据集还可以用于训练其他化学实体和关系提取模型,以进一步提高性能。
背景与挑战
背景概述
ChemBE (Chemical Bond Energy) corpus 是一个专门针对化学键领域的数据集,旨在通过自然语言处理技术从科学文献中提取化学键能量值,从而推动计算化学的发展。该数据集由中国科学院国家科学图书馆、中国科学院大学信息资源管理系、纽约城市大学以及清华大学基础分子科学中心的研究人员共同构建。ChemBE corpus 包含了 1900 篇化学键领域的论文,并标注了 7 种实体类型:化合物、溶剂、方法、反应、化学键、键能 (pKa) 和键能值 (pKa 值)。该数据集的构建对于计算化学领域具有重要意义,可以帮助研究人员更有效地提取化学键能量值,从而促进计算化学的研究。此外,ChemBE corpus 还为其他相关领域的研究提供了宝贵的数据资源。
当前挑战
ChemBE corpus 在构建和应用过程中面临着一些挑战。首先,现有的语料库主要关注生物医学或生命科学领域,而 ChemBE corpus 需要针对化学键领域进行专门的构建。其次,深度学习模型通常需要大量的数据进行训练,而现有的化学领域语料库规模较小。为了解决这个问题,研究团队采用了迁移学习的方法,在大型跨领域语料库上进行预训练,并在 ChemBE corpus 上进行微调。最后,ChemBE corpus 需要提取实体和关系,而实体之间的关系可能不是简单的三元组,而是 1:n 或 n:1 的关系。为了解决这个问题,研究团队构建了一个新的标注方案,并提出了一个基于 BERT-CRF 的联合模型,可以同时提取实体和关系。
常用场景
经典使用场景
在化学研究领域,ChemBE (Chemical Bond Energy) 语料库常用于构建科学化学数据链,通过从化学出版物中提取化合物、溶剂、方法、键、反应、pKa 和 pKa 值等七种实体及其关系。该语料库被广泛应用于化学信息提取、化学实体识别、关系提取等领域,为化学研究提供了重要的数据支持。
解决学术问题
ChemBE 语料库解决了化学领域缺乏大型标注数据集的问题,为化学信息提取、化学实体识别、关系提取等研究提供了重要的数据支持。此外,ChemBE 语料库还提出了联合 BERT-CRF 模型,实现了实体和关系的联合提取,提高了提取的准确性和效率。
衍生相关工作
ChemBE 语料库的构建和应用,推动了化学信息提取、化学实体识别、关系提取等领域的研究。基于 ChemBE 语料库,研究人员提出了多种化学信息提取方法和模型,如基于规则的方法、基于机器学习的方法、基于深度学习的方法等。此外,ChemBE 语料库还衍生出多种相关的工作,如化学知识图谱构建、化学数据挖掘、化学信息检索等。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

The Sol Genomics Network (SGN)

The Sol Genomics Network (SGN) 是一个专注于茄科植物基因组学研究的在线数据库和资源平台。该数据集包含了大量关于番茄、马铃薯、辣椒等茄科植物的基因组、遗传图谱、分子标记、QTL(数量性状位点)分析、表达数据以及相关文献等信息。SGN 旨在促进茄科植物的遗传学和基因组学研究,支持全球科研人员进行数据共享和合作。

solgenomics.net 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录