Textes des Publications de la HAS
收藏www.data.gouv.fr2025-01-15 收录
下载链接:
https://www.data.gouv.fr/fr/datasets/textes-des-publications-de-la-has/
下载链接
链接失效反馈官方服务:
资源简介:
Textes des Publications de la HAS À propos de cette documentation La documentation de ce jeu de données suit le concept de fiche technique pour les jeux de données (ou Datasheets for Datasets) proposé par Gebru et al. Spécifiquement, nous reprenons l'adaptation et traduction au français proposée par Samuel Goëta ici. Le but de cette fiche technique est de normaliser la documentation à propos de pourquoi un jeu de données a été créé, quelles informations il contient, les tâches pour lesquelles il devrait et ne devrait pas être utilisé, et si cela pourrait soulever des préoccupations d’ordre éthique ou juridique. Motivations pour la création du jeu de données Pourquoi le jeu de données a-t-il été initialement créé ? Les métadonnées des publications de la HAS sont disponibles ici. Chacune de ces publications contient des ressources liées. Dans le but de faciliter la réutilisation des connaissances produites par la HAS, ce dataset propose le fichier PDF ainsi qu'une version semi-structure du texte contenu à l'intérieur pour chaque ressource, pour chaque publication HAS. Pour quelles autres tâches le jeu de données pourrait-il être utilisé ? Faciliter la découverte des informations médicales, suivre l'évolution des connaissances en santé… Quelles sont les utilisations trompeuses du jeu de données ? Nous incluons tout l'historique des publications de la HAS disponible sur le site web. Les informations incluses dans les documents peuvent ne pas être à jour. Qui a financé ou soutenu la création du jeu de données ? La HAS. Composition du jeu de données Que contient le jeu de données principalement ? Les textes bruts (non structurés (PDF) et semi-structurés (XML)) des documents rédigés par les agents de la HAS. Deux types de fichiers semi-structurés sont mis à disposition : Text : fichier XML contenant le texte brut par page, Annotated: fichier XML contenant le mis en forme (en utilisant de balises type HTML) ainsi que le texte. Ce type de fichier existe que pour les fichiers PDF qui suivent le standard PDF/A ou PDF/UA. Dispose-t-on d’un schéma décrivant les variables du jeu de données ? Pas pour l'instant. Est-ce que le contenu du jeu de données dépend de ressources externes ? Oui, ce dataset est exploitable en utilisant le dataset avec les métadonnées des publications de la HAS. En outre, les documents peuvent contenir des informations relatives à des ressources externes. De quelles garanties dispose-t-on concernant la pérennité de ces ressources ? Le dataset des métadonnées des publications de la HAS est assuré par les agents de la HAS. Pour le reste, cela dépend de chaque ressource externe. Processus de collecte des données Comment les données ont été collectées (avec des capteurs, manuellement par des outils informatiques…) ? Les publications sont rédigées par des agents de la HAS et puis sont versées automatiquement à partir d'un système d'information interne. Certaines publications sont ajoutées manuellement. La collecte se fait par des outils informatiques. Qui a assuré le processus de collecte de données (des agents, des bénévoles, des étudiants…) ? Des agents de la HAS. Quelle a été la période de collecte des données ? Le dataset contient les textes des publications créées à partir de juin 1999. Les données ont-elles été collectées directement ou inférées à partir d’autres données ? Collectées directement. Les données ont-elles été collectées sur un échantillon ? Selon quelles méthodes ? Oui. Nous incluions que les types des publications liées à la production des experts de la HAS. Nous écartons les publications liées au système de gestion de documents du site web. Les publications incluses/exclues sont les suivantes : Types inclus Types exclus Avis sur les Médicaments Médecin accrédité Avis sur les dispositifs médicaux et autres produits de santé Avis et décisions de la HAS Évaluation des technologies de santé Article HAS Recommandation de bonne pratique Médicament Outil d'amélioration des pratiques professionnelles Résultat de certification des établissements Guide maladie chronique Événement de Calendrier Guide méthodologique Lien externe Recommandation en santé publique Article Webzine Études et Rapports Communiqué de presse Guide usagers Synthèse d'avis et Fiche bon usage Recommandation vaccinale Newsletter HAS Sous-éléments Glossaire - Terme Avis sur les Actes Brève Vos interlocuteurs Faq - Entrée Sondage Étude d'évaluation économique Quelles sont les erreurs connues, les limites, les sources de bruit ou de redondances associées à ces données ? La transformation PDF vers texte peut introduire des errerurs ortographiques voir rendre illisible le contenu. Pour la majorité des fichiers semi-structurés (XML), nous perdons le concept de table ainsi que les images. La creation de fichiers XML annotated depend de l'annotation fait par le createur original du fichier PDF. Par defaut, ce balisage se fait automatiquement (par exemple, par Office 365 lors de la conversion docx vers pdf). Cette démarche peut contenir des erreurs. Pré-traitement des données Comment les données ont-elles nettoyées ou préparées ? Aucun prétraitement est fait aux fichiers PDF. Les données « brutes » ont-elles été conservées ? Sont-elles diffusées ? Oui, les fichiers PDF sont diffusés dans ce dataset. L’outil de prétraitement des données est-il disponible ? Oui, dans le repo correspondant à ce dataset. Diffusion du jeu de données Les données sont-elles diffusées en ligne ? Selon quelles modalités (sur un portail open data, un site web, une API…)? Oui, sur cette page data.gouv.fr. Selon quelle licence les données sont-elles diffusées ? License Ouverte version 2.0 Des redevances ou des restrictions sont-elles appliquées dans l’accès aux données ? Non. Maintenance du jeu de données Qui assure la maintenance du jeu de données ? Comment peut-on contacter cette personne ? Quel est le service responsable du jeu de données ? La Mission Data de la HAS. Est-ce que les rôles sont distincts entre la production des données, leur éditorialisation et leur diffusion ? Oui. Produit par les services HAS. Éditorialisé aussi par les services HAS et le service communication. Diffusé par le service informatique et la Mission Data de la HAS. Le jeu de données sera-t-il mis à jour ? Si oui, à quelle fréquence ? Non. Si les données deviennent obsolètes, comment cette information sera-t-elle communiquée ? À travers de cette page. Est-il possible de contribuer à l’amélioration des données ? Selon quelles modalités ? Oui, en nous contactant à travers des commentaires de cette page ou directement par e-mail. Considérations légales et éthiques Si le jeu de données concerne des individus, ont-ils exprimé leur consentement de manière claire ? Il ne concerne pas des individus. Le jeu de données peut-il exposer de manière directe ou indirecte des individus ? Non à notre connaissance. Ces données sont-elles conformes au RGPD ? Oui. Les données peut-elles avantager ou désavantager des groupes sociaux ? Non à notre connaissance. Le jeu de données contient-il des informations pouvant être considérées comme inappropriées ou offensantes ? Non à notre connaissance Organisation de fichiers Douze fichiers ZIP sont mis à disposition : Les premiers 12 fichiers contiennent, pour chaque publication et pour chacune de ses resources liées, le fichier PDF ainsi que le fichier XML text et annotated. Ce dernier existe seulement si le fichier PDF traité suit le standard PDF/UA (tagged PDF). Par souci de taille, le fichier zip des Avis sur les Médicaments est séparé en deux parties. Le dernier fichier TextesPublicationsHAS_XML.zip contient que les fichiers semi-structurés XML pour toutes les thematiques. Arborescence des fichiers Tous les fichiers de ce dataset suivent la hiérarchie de fichiers décrite ci-dessous : ├── AVISMedicament # Thématique de la publication │ ├── p_3201790 # Id de la publication | | ├── p_3201789 # Id de la ressource | | | ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742.pdf | | | ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742_tagged.xml # Fichier XML tagged avec la date de publication comme préfixe | | | ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742_text.xml # Fichier XML text avec la date de publication comme préfixe │ ├── c_1001256 │ ├── c_1001258 │ ├── c_1001261 | ├── ... ├── AVISMedicament | ├── ... ├── AVISProduitsEtPrestations | ├── ... ├── EtudeEtEnquete | ├── ... ├── EvaluationDesPratiques | ├── ... ├── EvaluationDesProgrammesEtPolitiq | ├── ... ├── EvaluationDesTechnologiesDeSante | ├── ... ├── GuideMedecinALD | ├── ... ├── GuideMethodologique | ├── ... ├── GuidePatient | ├── ... ├── RecommandationsProfessionnelles | ├── ... ├── RecommandationVaccinale | ├── ...
文本集描述:本数据集的文档遵循Gebru等人提出的关于数据集技术规格(或Datasheets for Datasets)的概念。具体而言,我们采纳了Samuel Goëta提出的法语版本。此技术规格的目标是标准化关于数据集创建目的、包含信息、适用与不适用的任务,以及是否可能引发伦理或法律方面的担忧的文档。数据集创建的动机:为何最初创建此数据集?法国卫生安全局(HAS)的元数据可在此处获取。每一篇出版物都包含相关资源。为了便于重用HAS产生的知识,本数据集提供每个HAS出版物的PDF文件以及每个资源的文本内容的半结构化版本。数据集可能用于其他哪些任务?促进医学信息的发现,追踪健康知识的演变等。数据集的误用有哪些?我们包含HAS网站上的所有出版物历史。文档中包含的信息可能不是最新的。数据集的创建得到了哪些资助或支持?法国卫生安全局。数据集的组成:数据集主要包含什么?法国卫生安全局代理撰写的文档的原始文本(非结构化PDF和半结构化XML)。提供两种类型的半结构化文件:文本:包含每页原始文本的XML文件,标注:包含使用HTML标签进行格式化以及文本的XML文件。此类文件仅存在于遵循PDF/A或PDF/UA标准的PDF文件中。是否有一个描述数据集变量的模式?目前没有。数据集的内容是否依赖于外部资源?是的,此数据集在使用HAS出版物的元数据集时是可操作的。此外,文档可能包含与外部资源相关的信息。关于这些资源的持久性,我们有哪些保证?HAS的元数据数据集由HAS代理保证。其余部分取决于每个外部资源。数据收集过程:数据是如何收集的(使用传感器、手动通过计算机工具等)?出版物由HAS代理撰写,然后从内部信息系统自动发布。某些出版物是手动添加的。收集是通过计算机工具完成的。谁保证了数据收集过程(代理、志愿者、学生等)?法国卫生安全局的代理。数据收集的时期是什么时候?数据集包含从1999年6月创建的出版物文本。数据是直接收集的还是从其他数据推断出来的?直接收集的。数据是在样本上收集的吗?根据哪些方法?是的。我们包括与HAS专家生产相关的出版物类型。我们排除了与网站文档管理系统相关的出版物。包含/排除的出版物类型如下:包含的类型 排除的类型 药物评估 医师认证 医疗器械和健康产品评估 HAS的评估和决策 健康技术评估 HAS文章 良好实践推荐 药物 职业实践改进工具 认证机构认证结果 医疗疾病指南 日历事件 方法指南 外部链接 公共卫生推荐 网络杂志 研究报告 新闻稿 用户指南 意见和良好使用指南 疫苗推荐通讯 HAS通讯 子元素 术语 活动评估 经济评估错误、局限性、噪声或冗余来源:PDF向文本的转换可能引入拼写错误或使内容不可读。对于大多数半结构化文件(XML),我们失去了表格的概念以及图像。XML标注文件的创建取决于原始PDF文件创建者的标注。默认情况下,此标注是自动进行的(例如,通过Office 365将docx转换为pdf时)。这种做法可能包含错误。数据预处理:数据是如何清理或准备的?对PDF文件没有进行任何预处理。是否保留了“原始”数据?是否进行了分发?是的,本数据集中分发PDF文件。数据预处理工具是否可用?是的,在相应的数据集repo中。数据集的传播:数据是否在线分发?根据何种方式(在开放数据门户、网站、API等上)?是的,在data.gouv.fr页面上。数据是根据何种许可证分发的?开放许可证版本2.0。在访问数据时是否应用了版税或限制?没有。数据集的维护:谁负责维护数据集?如何联系此人?负责数据集的服务是什么?法国卫生安全局的Mission Data。数据的生产、编辑和分发之间是否有不同的角色?是的。由HAS服务生产。由HAS服务和沟通服务编辑。由信息技术服务部和Mission Data of HAS分发。数据集将更新吗?如果更新,频率是多少?不会。如果数据变得过时,如何传达此类信息?通过此页面。是否可以以某种方式为数据集的改进做出贡献?可以通过以下方式:是的,通过通过此页面的评论或直接通过电子邮件与我们联系。法律和伦理考量:如果数据集涉及个人,他们是否明确表达了同意?它不涉及个人。数据集是否会直接或间接地暴露个人?据我们所知,不会。这些数据是否符合GDPR?是的。这些数据是否会有利于或不利社会群体?据我们所知,不会。数据集中是否包含可能被视为不适当或冒犯性的信息?据我们所知,不会。文件组织:提供12个ZIP文件:前12个文件包含每个出版物及其相关资源的PDF文件以及文本和标注的XML文件。最后一个文件TextesPublicationsHAS_XML.zip包含所有主题的半结构化XML文件。文件结构:本数据集中的所有文件遵循以下文件结构:
├── AVISMedicament # 出版物主题 │ ├── p_3201790 # 出版物ID | | ├── p_3201789 # 资源ID | | │ ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742.pdf | | │ ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742_tagged.xml # 使用发布日期作为前缀的标记XML文件 | | │ ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742_text.xml # 使用发布日期作为前缀的文本XML文件 | | ├── c_1001256 │ ├── c_1001258 │ ├── c_1001261 | ├── ... ├── AVISMedicament │ ├── ... ├── AVISProduitsEtPrestations │ ├── ... ├── EtudeEtEnquete │ ├── ... ├── EvaluationDesPratiques │ ├── ... ├── EvaluationDesProgrammesEtPolitiq │ ├── ... ├── EvaluationDesTechnologiesDeSante │ ├── ... ├── GuideMedecinALD │ ├── ... ├── GuideMethodologique │ ├── ... ├── GuidePatient │ ├── ... ├── RecommandationsProfessionnelles │ ├── ... ├── RecommandationVaccinale │ ├── ...
提供机构:
www.data.gouv.fr



