five

Webcrawling zu Akzeptanzproblematiken der Telemedizin

收藏
NIAID Data Ecosystem2026-03-12 收录
下载链接:
https://zenodo.org/record/4557100
下载链接
链接失效反馈
官方服务:
资源简介:
Das Korpus umfasst Metadaten eines im März 2019 durchgeführten Webcrawlings zum Thema Akzeptanzproblematiken der Telemedizin. Es handelt sich um insgesamt 8.788 Websites, die mittels des hermA-Webcrawlers (Adelmann 2020a) gespeichert und der zugehörigen Toolbox (Adelmann 2020b) aufbereitet wurden. Mit vorgegebenen Seed-URLs, die in der Datei seed_urls.txt enthalten sind, ist der Crawler den Links in HTML-Webseiten gefolgt und hat alle Dokumente gespeichert, die mindestens einen der vorgegebenen Begriffe aus der Datei wortfeld_telemedizin.txt enthalten. Mit der manuell erstellten Liste von ausgeschlossenen Websites aus der Datei blacklist.txt wurde verhindert, dass Daten von Social Media und aus Online-Shopping-Portalen gespeichert werden. Das so fokussierte Crawling wurde mit der Toolbox aufbereitet in drei Ausgabedateien: urls.txt listet alle gespeicherten Webadressen und den Zeitpunkt des Besuchs sowie die erkannte Dateiform und den Titel der aufgerufenen Webseite. files.txt benennt die aufbereiteten Versionen der Dateien. Die Datei matches.txt listet die in jeder Datei gefundenen Begriffe des Wortfelds sowie die Anzahl der entsprechenden Treffer auf. Das Vorgehen des Crawling ist beschrieben bei Adelmann/Franken 2020. Aus rechtlichen Gründen können die gespeicherten Dateien nicht zur Verfügung gestellt werden.
创建时间:
2021-02-24
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作