Antibody product dataset

github2020-07-06 更新2024-05-31 收录

下载链接：

https://github.com/oschmi/antibody-catalog-integration-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约42万个抗体产品，涵盖12家制造商和不同产品类型，如ELISA试剂盒、一抗等。数据集通过整合工作收集，文件格式包括人类可读版本和parquet格式。

This dataset comprises approximately 420,000 antibody products, encompassing 12 manufacturers and various product types such as ELISA kits and primary antibodies. The dataset was compiled through integration efforts, with file formats including human-readable versions and parquet format.

创建时间：

2020-04-29

原始信息汇总

数据集概述

数据集名称

Antibody product dataset

数据集内容

包含约420,000种抗体产品信息。
数据集由19个文件组成，每个文件包含的产品数量从3到约230,000不等。
涉及12个制造商和多种产品类型，如ELISA Kits、Primary Antibodies等。
每个目录的属性名称数量从14到65不等，集成到具有94个标签的目标模式中。

数据集格式

提供人类可读版本和二进制版本（Parquet格式）。
未压缩文件总大小约为25GB。

数据收集过程

数据通过分析集成管道的两个阶段收集。
第一阶段收集格式统一后的产品目录数据，以CSV格式存储。
第二阶段收集数据库转移前的产品信息，采用统一的表格目标模式。

数据使用方法

提供Python代码示例，使用Pandas库读取Parquet文件。
提供数据集转换为更简洁格式的代码示例。

引用信息

若在出版物中使用此数据集，请引用相关论文。

许可证

本数据集根据Creative Commons Attribution-ShareAlike 4.0 International License授权。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程分为两个阶段。首先，研究人员从多个制造商的抗体产品目录中收集了原始数据，并将其统一为CSV格式，每个文件包含制造商的原始属性名称和内容。随后，研究人员在数据集成管道的最后一步，即在将产品信息转移到数据库之前，提取了经过人工交互后的数据。这些数据具有统一的表格目标模式，部分输入列的数据被直接映射到目标文件中，而其他属性则在集成过程中进行了转换，如从字符串中提取信息、标准化测量单位、解析同义词和缩写等。

特点

该数据集包含了约42万种抗体产品，涵盖了12家制造商的不同产品类型，如ELISA试剂盒、一抗等。每个文件中的产品数量从3个到约23万个不等，属性名称的数量从14到65个不等，最终集成为一个包含94个标签的目标模式。为了确保数据的隐私性，制造商的名称被伪匿名化处理，并用sha256哈希值替换。此外，数据集被分割成较小的文件块，以提高使用的便捷性。

使用方法

该数据集以Parquet格式提供，用户可以使用Python的Pandas库读取文件。由于数据中包含嵌套结构，建议使用fastparquet引擎进行读取。用户可以通过简单的代码片段提取标签列表，并将数据集转换为更简洁的格式。例如，使用Pandas读取文件后，可以通过lambda函数提取标签值，并选择感兴趣的列进行进一步分析。数据集的使用示例代码已在README文件中提供，用户可以根据需求进行修改和扩展。

背景与挑战

背景概述

Antibody product dataset 是一个专注于抗体产品目录整合的数据集，由Oliver Schmidts、Bodo Kraft、Marvin Winkens和Albert Zündorf等研究人员于2020年创建。该数据集包含了约42万种抗体产品，涵盖了12家制造商的不同产品类型，如ELISA试剂盒、一抗等。数据集的核心研究问题在于如何有效地整合来自不同制造商的产品目录数据，并将其映射到一个统一的目标模式中。这一研究对生物信息学和数据整合领域具有重要意义，尤其是在处理低质量产品数据时，提供了新的解决方案。

当前挑战

Antibody product dataset 面临的挑战主要集中在两个方面。首先，数据集旨在解决抗体产品目录整合中的复杂性问题，尤其是在处理不同制造商的产品数据时，如何确保数据的准确性和一致性。由于不同制造商的产品目录结构和属性命名方式差异较大，数据整合过程中需要解决属性匹配、单位标准化、同义词解析等问题。其次，在数据集的构建过程中，研究人员面临了数据格式不统一、数据量庞大（约25GB）以及数据隐私保护等挑战。尽管数据集已经过伪匿名化处理，但仍需确保数据的可用性和完整性，同时避免泄露敏感信息。

常用场景

经典使用场景

在生物信息学和抗体研究领域，Antibody product dataset为研究人员提供了一个全面的抗体产品目录集成数据集。该数据集包含了来自12家制造商的约420,000种抗体产品，涵盖了ELISA试剂盒、一抗等多种产品类型。研究人员可以利用该数据集进行抗体产品的属性分析、分类和匹配，特别是在处理低质量数据时，该数据集通过统一的标签架构和标准化的数据格式，极大地简化了数据集成和分析的流程。

解决学术问题

Antibody product dataset解决了抗体产品数据集成中的关键问题，尤其是在处理多源异构数据时。通过提供统一的标签架构和标准化的数据格式，该数据集帮助研究人员克服了数据格式不一致、属性名称不统一等难题。此外，数据集中的伪匿名化处理保护了制造商的隐私，同时确保了数据的可用性。这些特性使得该数据集成为抗体产品数据集成和属性标签排名研究中的重要工具。

衍生相关工作

基于Antibody product dataset，许多相关研究工作得以展开。例如，研究人员开发了基于机器学习的抗体产品属性预测模型，利用该数据集进行训练和验证。此外，该数据集还被用于研究抗体产品的市场趋势分析，帮助制造商了解市场需求和竞争态势。这些衍生工作不仅推动了抗体产品数据集成技术的发展，也为生物医学研究提供了新的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集