Webcrawling zu Akzeptanzproblematiken der Telemedizin

NIAID Data Ecosystem2026-03-12 收录

下载链接：

https://zenodo.org/record/4557100

下载链接

链接失效反馈

官方服务：

资源简介：

Das Korpus umfasst Metadaten eines im März 2019 durchgeführten Webcrawlings zum Thema Akzeptanzproblematiken der Telemedizin. Es handelt sich um insgesamt 8.788 Websites, die mittels des hermA-Webcrawlers (Adelmann 2020a) gespeichert und der zugehörigen Toolbox (Adelmann 2020b) aufbereitet wurden. Mit vorgegebenen Seed-URLs, die in der Datei seed_urls.txt enthalten sind, ist der Crawler den Links in HTML-Webseiten gefolgt und hat alle Dokumente gespeichert, die mindestens einen der vorgegebenen Begriffe aus der Datei wortfeld_telemedizin.txt enthalten. Mit der manuell erstellten Liste von ausgeschlossenen Websites aus der Datei blacklist.txt wurde verhindert, dass Daten von Social Media und aus Online-Shopping-Portalen gespeichert werden. Das so fokussierte Crawling wurde mit der Toolbox aufbereitet in drei Ausgabedateien: urls.txt listet alle gespeicherten Webadressen und den Zeitpunkt des Besuchs sowie die erkannte Dateiform und den Titel der aufgerufenen Webseite. files.txt benennt die aufbereiteten Versionen der Dateien. Die Datei matches.txt listet die in jeder Datei gefundenen Begriffe des Wortfelds sowie die Anzahl der entsprechenden Treffer auf. Das Vorgehen des Crawling ist beschrieben bei Adelmann/Franken 2020. Aus rechtlichen Gründen können die gespeicherten Dateien nicht zur Verfügung gestellt werden.

创建时间：

2021-02-24

5,000+

优质数据集

54 个

任务类型

进入经典数据集