Simple Protein Dataset

github2020-02-25 更新2024-05-31 收录

下载链接：

https://github.com/Bartosz-Lewandowski/Simple-Protein-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个简单的数据集，用于学习xml、xslt和dtd。首先定义了文件结构，然后使用xml编写了蛋白质示例，并通过xslt文件将这些示例转换为易于阅读的html页面。此外，还提供了将xml文件转换为fasta文件的功能。

This is a simple dataset designed for learning XML, XSLT, and DTD. It begins by defining the file structure, followed by the creation of protein examples using XML. These examples are then transformed into easily readable HTML pages via an XSLT file. Additionally, the dataset offers functionality to convert XML files into FASTA format.

创建时间：

2020-02-21

原始信息汇总

Simple Protein Dataset 概述

数据集目的

本数据集旨在用于学习 xml, xslt 和 dtd。通过创建DTD定义文件结构，并参考UniProt的例子，提供了Hemoglobin和Rieske两种蛋白质的XML示例。随后，使用XSLT文件将这些示例转换为更清晰的HTML页面，并支持将XML文件转换为FASTA格式的文件。

技术应用

XSLT
XML
DTD
HTML
CSS

数据集内容

DTD文件：定义文件结构。
XML文件：包含Hemoglobin和Rieske蛋白质的示例。
XSLT文件：用于将XML文件转换为HTML和FASTA格式。
HTML文件：通过XSLT转换得到的清晰展示页面。
FASTA文件：包含核苷酸和氨基酸序列的文件。

使用方法

验证XML示例：使用 xmllint 命令。
文件转换：使用 xsltproc 命令进行XML到HTML或FASTA的转换。

示例操作

验证：xmllint protein.dtd hemoglobin_protein.xml
转换为HTML：xsltproc -o Hemoglobin.html xsl_files/visual_transformation.xsl hemoglobin_protein.xml
转换为核苷酸FASTA：xsltproc -o nucleotides.fasta xsl_files/nucleotides_transformation.xsl hemoglobin_protein.xml
转换为氨基酸FASTA：xsltproc -o aminoacids.fasta xsl_files/aminoacids_transformation.xsl hemoglobin_protein.xml

作者

Bartosz Lewandowski：负责Hemoglobin示例，主要校正，XSLT到FASTA文件转换，DTD文件。
Bartłomiej Hofman：负责Rieske示例，XSLT到HTML文件转换，CSS，DTD文件。

搜集汇总

数据集介绍

构建方式

Simple Protein Dataset乃是一个以学习xml、xslt及dtd技术为目的而构建的简易数据集。首先，通过定义dtd以明确文件结构，参照了UniProt的示例。其次，采用xml语言编写了血红蛋白和Rieske蛋白的示例，并使用xslt文件将这些示例转换成更为直观的html页面。此外，数据集还提供了fasta文件的下载，通过特定的xsl转换文件，将xml文件转换为fasta格式。

特点

该数据集的特点在于其简易性与教学目的明确。它不仅包含了蛋白质序列的xml表示，还提供了转换至html和fasta格式的工具，便于学习和研究。此外，数据集的结构定义遵循了UniProt的标准，保证了数据的一致性和可用性。

使用方法

使用该数据集首先需要在Ubuntu/Debian系统中安装xsltproc和xmllint工具。通过xmllint命令可以验证xml文件的正确性，而xsltproc命令则用于将xml文件转换成html或fasta文件。具体操作包括验证xml文件、转换xml文件至html以及转换xml文件至fasta格式，用户可根据需要选择相应的命令和参数进行操作。

背景与挑战

背景概述

Simple Protein Dataset是一个以学习xml、xslt和dtd技术为目的而构建的简易蛋白质数据集。该数据集的创建，始于对UniProt蛋白质数据库文件结构的模仿与实践，其核心在于通过xml示例（包括血红蛋白和Rieske蛋白的波兰语记录）的学习，掌握如何定义文件结构、编写xslt文件以实现xml到html的转换，以及如何将xml文件转换为fasta格式。由Bartosz Lewandowski和Bartłomiej Hofman等研究人员开发，该数据集在蛋白质数据库构建与转换技术学习领域具有一定的参考价值。

当前挑战

该数据集在构建过程中所面临的挑战主要包括：如何精确地使用xml和xslt技术进行数据转换，以确保转换后的html页面具有良好的可读性；以及如何有效地将xml文件转换为fasta格式，以便于在蛋白质数据库中进行进一步的分析和应用。此外，该数据集在解决蛋白质数据表示和转换问题的同时也面临如何保证数据准确性和转换效率的挑战。

常用场景

经典使用场景

在生物信息学领域，Simple Protein Dataset数据集被设计为一种教学工具，其经典使用场景在于帮助学者和开发者理解和学习XML、XSLT和DTD技术。通过该数据集，用户可以观察到如何将蛋白质序列数据从XML格式转换成HTML格式，以及如何转换成fasta格式，从而更加直观地理解这些技术在实际数据格式转换中的应用。

衍生相关工作

基于Simple Protein Dataset数据集，衍生出了相关的经典工作，包括进一步扩展的数据集构建、XML到其他生物信息学常用格式的转换工具开发，以及相关的教学课程和教程。这些工作进一步推动了XML技术在生物信息学领域的应用和普及。

数据集最近研究