Variablenselektion von hoch-dimensionalen Deskriptoren zur Erkennung von Naturstoffen in Moleküldatenbanken: Anhang D.1

Name: Variablenselektion von hoch-dimensionalen Deskriptoren zur Erkennung von Naturstoffen in Moleküldatenbanken: Anhang D.1
Creator: Universitätsbibliothek Braunschweig
Published: 2026-04-15 07:21:13
License: 暂无描述

DataCite Commons2026-04-15 更新2026-05-03 收录

下载链接：

https://leopard.tu-braunschweig.de/receive/dbbs_mods_00079250

下载链接

链接失效反馈

官方服务：

资源简介：

Mit der heute zur Verfügung stehenden Rechenleistung ist es leicht möglich Vorhersagemodelle mit einer Vielzahl an Objekten und Merkmalen zu trainieren. Mit steigender Anzahl an Variablen wird es zunehmend komplexer die Rationale eines Modells zu verstehen, was sich wiederum negativ auf dessen Interpretierbarkeit auswirken kann. Letztendlich kann es dadurch zum Overfitting kommen, d. h. einer Überanpassung des Modells an die Trainingsdaten. Eine vielversprechende Strategie um dies zu verhindern, liegt darin die Dimensionalität des Merkmalsraums zu reduzieren und so die Interpretierbarkeit des Modells möglichst zu erhalten. In dieser Arbeit wird ein hoch-dimensionales paarweises Screening der Merkmale durchgeführt, das auf der klassenbedingten und nicht-klassenbedingten empirischen Verteilungsfunktion beruht. Dieses wird mit etablierten Verfahren wie dem t-Test und dem Wilcoxon-Rangsummentest auf einem unabhängigen Testdatensatz verglichen. Mit den jeweils bestbewerteten Variablen werden folgend Random-Forest-Klassifikatoren trainiert und damit ihre Leistungsfähigkeit verglichen. Im hier untersuchten Zwei-Klassen-Problem sollen Naturstoffe von rein synthetischen Molekülen unterschieden werden. Nach sorgfältiger Aufbereitung der Strukturdatenbanken wird eine Auswahl an Moleküldeskriptoren berechnet und dem Screening unterzogen. Untersucht werden die umfangreiche Sammlung Dragon, sowie algorithmisch generierte Fragment-Deskriptoren und in manuell selektierter Deskriptorsatz, der auf erwarteten sowie publizierten Eigenschaften der zwei Molekülklassen basiert. Als Vergleich dienen MACCS keys und ein Extended-Connectivity Fingerprint. Einige dieser Deskriptorsätze, insbesondere die der Dragon-Sammlung, lassen ein hohes Maß an interner Korrelation vermuten. Da der verwendete Screening-Algorithmus nicht in der Lage ist interne Korrelation zu bewerten, wird eine Analyse auf Redundanz durchgeführt. So können möglicherweise redundante Variablen identifiziert und aus dem Modellbildungsprozess ausgeschlossen werden. Die Modellgüte wird folgend evaluiert, sowohl für die einzelnen Deskriptorsätze als auch für vielversprechende Kombinationen daraus.

提供机构：

Universitätsbibliothek Braunschweig

创建时间：

2026-04-13