five

ChEMU dataset for information extraction from chemical patents|化学信息提取数据集|自然语言处理数据集

收藏
Mendeley Data2024-01-31 更新2024-06-26 收录
化学信息提取
自然语言处理
下载链接:
https://data.mendeley.com/datasets/wy6745bjfj
下载链接
链接失效反馈
资源简介:
The discovery of new chemical compounds and their synthesis process is of great importance to the chemical industry. Patent documents contain critical and timely information about newly discovered chemical compounds, providing a rich resource for chemical research in both academia and industry. Chemical patents are often the initial venues where a new chemical compound is disclosed. Only a small proportion of chemical compounds are ever published in journals and these publications can be delayed by up to 3 years after the patent disclosure. In addition, chemical patent documents usually contain unique information, such as reaction steps and experimental conditions for compound synthesis and mode of action. These details are crucial for the understanding of compound prior art, and provide a means for novelty checking and validation. Due to the high volume of chemical patents, approaches that enable automatic information extraction from these patents are in demand. To develop natural language processing methods for large-scale mining of chemical information from patent texts, a corpus is created providing chemical patent snippets and annotated entities and reaction steps.
创建时间:
2024-01-31
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

WikiArt

为了收集我们的美术作品集,我们使用了公开的 “维基艺术绘画” 数据集4 ;据我们所知,这是最大的数字化艺术品在线公开收藏。这个收藏有从十五个世纪到当代艺术家的1,119艺术家的81,449精工画的图像。 这些绘画来自27种不同的风格 (抽象,拜占庭,巴洛克等) 和 45种不同的流派 (室内、风景等)先前的作品 [26,9] 使用了不同的资源,并制作了较小的收藏,在风格,流派方面的可变性有限 和艺术家。[4] 的工作在数据收集程序方面最接近我们的工作,但是他们收集的图像数量是我们的一半。

OpenDataLab 收录

Granary

Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集,由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成,旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据,经过精心筛选和处理,旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别(ASR)和自动语音翻译(AST)等领域的研究,有助于提高语音模型在低资源语言上的准确性和鲁棒性。

arXiv 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

PartNet

我们介绍了PartNet: 一个一致的、大规模的三维对象数据集,用细粒度的、实例级的和分层的三维零件信息进行注释。我们的数据集包括573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集支持并充当许多任务的催化剂,例如形状分析,动态3D场景建模和仿真,可承受分析等。使用我们的数据集,我们建立了用于评估3D零件识别的三个基准任务: 细粒度语义分割,分层语义分割和实例分割。我们对四种最先进的3D深度学习算法进行了基准测试,用于细粒度语义分割,并对三种基线方法进行了基准测试。我们还提出了一种新颖的零件实例分割方法,并证明了其优于现有方法的性能。

OpenDataLab 收录

🌧️ Digital Typhoon Dataset WP (GIFs| 57GB)

🌧️ Digital Typhoon Dataset Western Pacific (Animated GIFs)

kaggle 收录