Der Kreislauf des (Daten-)Lebens. Zugangspunkte in die DARIAH-DE Datenföderationsarchitektur
收藏DataCite Commons2020-07-29 更新2025-04-09 收录
下载链接:
https://hdl.handle.net/21.11113/0000-000B-D558-2
下载链接
链接失效反馈官方服务:
资源简介:
Der Research Data Lifecycle oder Forschungsdatenzyklus ist ein bekanntes Konzept aus der Informationswissenschaft. Es wird in vielen Forschungsinfrastrukturen genutzt, um die verschiedenen Schritte aufzuzeigen, die Daten im Forschungsprozess durchlaufen und um zu verdeutlichen, welche Anforderungen an die Daten und die Werkzeuge oder Dienste gestellt werden. Dabei werden in den jeweiligen Fachbereichen unter Berücksichtigung ihrer heterogenen wissenschaftlichen Praxis und (Daten-)Standards verschiedene Modelle entworfen und diskutiert. Es gibt daher kein verbindliches, einheitliches Modell, die einzelnen Schemata sind aber letztlich Varianten des geisteswissenschaftlichen Forschungsprozesses und akzentuieren durch unterschiedliche Gewichtung einzelne Aufgaben. Sie repräsentieren also grundlegende Prozesse, die in allen Modellen enthalten sind.
Die basalen Prozesse eines Forschungsdatenzyklus bilden daher auch das intellektuelle Konzept hinter der Infrastruktur von DARIAH-DE, dem deutschen Beitrag zu DARIAH-EU, einem digitalen Forschungsinfrastrukturprojekt für die Geistes- und Kulturwissenschaften. Dabei macht der dort vorgeschlagene generische Workflow die Komplexität des Forschungsprozesses deutlich und insbesondere die Iteration der verschiedenen Schritte.
Auf der praktischen Ebene wurde innerhalb von DARIAH-DE eine Data Federation Architecture (DFA) entwickelt. Unter diesem Begriff sind mehrere modulare Komponenten gebündelt, die für sich alleine oder im Zusammenspiel genutzt werden können: das DARIAH-DE Repository, die Collection Registry, das Data Modelling Environment und die Generic Search sowie einen EPIC-PID-Service.
Für viele der in den verschiedenen Schritten eines Forschungsdatenzyklus anfallenden Aufgaben können Komponenten der Data Federation Architecture zum Einsatz kommen. Hierunter fallen die Indizierung und Anzeige von Forschungsdaten, die Bereitstellung von Beschreibungsschemata für Sammlungsbeschreibungen und deren langfristige Speicherung, sowie eine umfassende Suchfunktionalität für heterogene strukturierte Datensammlungen und Archive. Zudem bietet die DFA spezifische hinterlegte Metadatenstandards und Crosswalks zwischen Metadaten-Schemata, um Hilfestellung beim Mapping von Forschungsdaten unterschiedlicher Herkunft und Beschaffenheit zu ermöglichen.
Die DFA deckt nicht alle Schritte eines Forschungsprozesses und damit letztlich auch des Forschungsdatenzykluses ab. So bleibt der Abschnitt der Analyse (je nach Einteilung / Benennung der Etappen im Datenzyklus auch der der Visualisierung) offen. Dies stellt aber kein Problem dar, denn es gibt in den digitalen Geisteswissenschaften hinreichend andere Tools, die diese Lücke zielgerichtet füllen können.
Das Poster möchte den Zusammenhang dieser beiden Konzepte, Forschungsdatenzyklus und Datenföderationsarchitektur deutlich machen bzw. die Einstiegsstellen in den Forschungsdatenzyklus mit Hilfe der DFA-Module aufzeigen. Dabei lassen sich diese Modelle nicht Eins zu Eins aufeinander beziehen, sie sind vielmehr durch “one-to-many”-Beziehungen miteinander verbunden. Auch wurde der Forschungsdatenzyklus für die visuelle Darstellung auf einem Poster vereinfacht, da der oben genannte generische Workflow relativ komplex ist, und stellt daher ein vereinfachtes Modell und nicht die Realität dar. Es wurden folgende Bereiche abgegrenzt: Erstellung, Verarbeitung, Analyse, Archivierung, Zugang und Nachnutzung.
Die modulare Struktur der DFA erlaubt eine ständige Weiterentwicklung und Anpassung an sich verändernde Nutzungsszenarien und neue Entwicklungen im Forschungsdatenmanagement. Sie befindet sich zurzeit noch in einem “work in progress”- Stadium, das Poster wird daher den aktuellen Stand der Entwicklung vorstellen.
研究数据生命周期(Research Data Lifecycle/Forschungsdatenzyklus)是信息科学领域的知名概念。它被广泛应用于众多研究基础设施,旨在展示数据在研究过程中经历的各个步骤,并阐明对数据及相关工具或服务的要求。各学科领域会结合其异质的科学实践及(数据)标准,设计并讨论不同模型。因此,不存在具有约束力的统一模型,但各方案最终均为人文社科研究过程的变体,通过对不同任务的权重分配突出重点,代表所有模型共有的基础流程。
研究数据生命周期的基础流程构成了DARIAH-DE基础设施的核心概念。DARIAH-DE是德国对DARIAH-EU的贡献,后者是面向人文与文化科学的数字研究基础设施项目。其中,该基础设施提出的通用工作流清晰展现了研究过程的复杂性,尤其是各步骤的迭代特性。
实践层面,DARIAH-DE内部开发了数据联邦架构(Data Federation Architecture,DFA)。这一概念涵盖多个模块化组件,可单独或协同使用:包括DARIAH-DE存储库、集合注册系统、数据建模环境、通用搜索功能及EPIC-PID服务。
DFA组件可用于研究数据生命周期各步骤的诸多任务,如研究数据的索引与展示、集合描述方案的提供及其长期存储、异构结构化数据集与档案的全面搜索功能。此外,DFA提供特定内置元数据标准及元数据schema之间的交叉映射(Crosswalks),助力不同来源和性质研究数据的映射。
DFA未覆盖研究过程及数据生命周期的所有步骤,例如分析环节(含可视化环节,依生命周期阶段划分命名而定)仍未涉及。但这并非问题,数字人文领域存在足够工具可针对性填补空白。
本海报旨在明确研究数据生命周期与DFA的关联,或借助DFA组件展示生命周期的切入点。这些模型无法一一对应,而是通过“一对多”(one-to-many)关系关联。为便于海报可视化,研究数据生命周期已简化(因通用工作流较复杂),仅代表简化模型而非实际情况,划分领域包括:创建、处理、分析、存档、访问及再利用。
DFA的模块化结构支持持续发展,可适应变化的使用场景及研究数据管理新进展。它目前处于“工作进行中”(work in progress)阶段,海报将呈现其当前发展状态。
提供机构:
DARIAH-DE
创建时间:
2019-02-14



