five

Textes des publications de la HAS

收藏
www.data.gouv.fr2024-11-25 更新2025-03-23 收录
下载链接:
https://www.data.gouv.fr/fr/datasets/textes-des-publications-de-la-has-7/
下载链接
链接失效反馈
官方服务:
资源简介:
Textes des publications de la HAS À propos de cette documentation La documentation de ce jeu de données suit le concept de fiche technique pour les jeux de données (ou Datasheets for Datasets) proposé par Gebru et al. Spécifiquement, nous reprenons l'adaptation et traduction au français proposée par Samuel Goëta ici. Le but de cette fiche technique est de normaliser la documentation à propos de pourquoi un jeu de données a été créé, quelles informations il contient, les tâches pour lesquelles il devrait et ne devrait pas être utilisé, et si cela pourrait soulever des préoccupations d’ordre éthique ou juridique. Motivations pour la création du jeu de données Pourquoi le jeu de données a-t-il été initialement créé ? Les métadonnées des publications de la HAS sont disponibles ici. Chacune de ces publications contient des ressources liées. Dans le but de faciliter la réutilisation des connaissances produites par la HAS, ce jeu de données propose le fichier PDF ainsi qu'une version semi-structure du texte contenu à l'intérieur pour chaque ressource, pour chaque publication HAS. Pour quelles autres tâches le jeu de données pourrait-il être utilisé ? Faciliter la découverte des informations médicales, suivre l'évolution des connaissances en santé… Quelles sont les utilisations trompeuses du jeu de données ? Nous incluons tout l'historique des publications de la HAS disponible sur le site web. Les informations incluses dans les documents peuvent ne pas être à jour. Qui a financé ou soutenu la création du jeu de données ? La HAS. Composition du jeu de données Que contient le jeu de données principalement ? Les textes bruts (non structurés (PDF) et semi-structurés (XML)) des documents rédigés par les agents de la HAS. Deux types de fichiers semi-structurés sont mis à disposition : Text : fichier XML contenant le texte brut par page, Annotated: fichier XML contenant le mis en forme (en utilisant de balises type HTML) ainsi que le texte. Ce type de fichier existe que pour les fichiers PDF qui suivent le standard PDF/A ou PDF/UA. Dispose-t-on d’un schéma décrivant les variables du jeu de données ? Pas pour l'instant. Est-ce que le contenu du jeu de données dépend de ressources externes ? Oui, ce jeu de données est exploitable en combinaison avec un autre sur les métadonnées des publications de la HAS. En outre, les documents peuvent contenir des informations relatives à des ressources externes. De quelles garanties dispose-t-on concernant la pérennité de ces ressources ? Le jeu de données des métadonnées des publications de la HAS est assuré par les agents de la HAS. Pour le reste, cela dépend de chaque ressource externe. Processus de collecte des données Comment les données ont été collectées (avec des capteurs, manuellement par des outils informatiques…) ? Les publications sont rédigées par des agents de la HAS. Certaines publications sont versées automatiquement sur le site internet de la HAS à partir de systèmes d'information internes, d'autres sont ajoutées manuellement. La collecte depuis le site internet de la HAS se fait par des outils informatiques. Qui a assuré le processus de collecte de données (des agents, des bénévoles, des étudiants…) ? Des agents de la HAS. Quelle a été la période de collecte des données ? Le jeu de données contient les textes des publications créées à partir de juin 1999. Les données ont-elles été collectées directement ou inférées à partir d’autres données ? Collectées directement. Les données ont-elles été collectées sur un échantillon ? Selon quelles méthodes ? Oui. Nous n'incluons que les publications de certains types, liées à la production des experts de la HAS. Nous écartons les publications liées au système de gestion de documents du site web. Les publications incluses/exclues sont les suivantes : Types inclus Types exclus Avis sur les Médicaments Médecin accrédité Avis sur les dispositifs médicaux et autres produits de santé Avis et décisions de la HAS Évaluation des technologies de santé Article HAS Recommandation de bonne pratique Médicament Outil d'amélioration des pratiques professionnelles Résultat de certification des établissements Guide maladie chronique Événement de Calendrier Guide méthodologique Lien externe Recommandation en santé publique Article Webzine Études et Rapports Communiqué de presse Guide usagers Synthèse d'avis et Fiche bon usage Recommandation vaccinale Newsletter HAS Sous-éléments Glossaire - Terme Avis sur les Actes Brève Vos interlocuteurs Faq - Entrée Sondage Étude d'évaluation économique Quelles sont les erreurs connues, les limites, les sources de bruit ou de redondances associées à ces données ? La transformation PDF vers texte peut introduire des erreurs orthographiques, voire rendre illisible le contenu. Pour la majorité des fichiers semi-structurés (XML), nous perdons le concept de table ainsi que les images. La création de fichiers XML annotated depend de l'annotation fait par le créateur original du fichier PDF. Par defaut, ce balisage se fait automatiquement (par exemple, par Office 365 lors de la conversion docx vers pdf). Cette démarche peut contenir des erreurs. Pré-traitement des données Comment les données ont-elles nettoyées ou préparées ? Aucun prétraitement n'est réalisé sur les fichiers PDF. Les données « brutes » ont-elles été conservées ? Sont-elles diffusées ? Oui, les fichiers PDF sont diffusés dans ce jeu de données. L’outil de prétraitement des données est-il disponible ? Oui, dans le dépôt de code correspondant à ce jeu de données. Diffusion du jeu de données Les données sont-elles diffusées en ligne ? Selon quelles modalités (sur un portail open data, un site web, une API…)? Oui, sur cette page data.gouv.fr. Selon quelle licence les données sont-elles diffusées ? License Ouverte version 2.0 Des redevances ou des restrictions sont-elles appliquées dans l’accès aux données ? Non. Maintenance du jeu de données Qui assure la maintenance du jeu de données ? Comment peut-on contacter cette personne ? Quel est le service responsable du jeu de données ? La Mission Data de la HAS. Est-ce que les rôles sont distincts entre la production des données, leur éditorialisation et leur diffusion ? Oui. Produit par les services HAS. Éditorialisé aussi par les services HAS et le service communication. Diffusé par le service informatique et la Mission Data de la HAS. Le jeu de données sera-t-il mis à jour ? Si oui, à quelle fréquence ? Oui, toutes les semaines. Si besoin de mettre à jour plus fréquemment, nous écrire. Si les données deviennent obsolètes, comment cette information sera-t-elle communiquée ? Par le biais de cette page. Est-il possible de contribuer à l’amélioration des données ? Selon quelles modalités ? Oui, en nous contactant par le biais de commentaires de cette page, ou directement par e-mail. Considérations légales et éthiques Si le jeu de données concerne des individus, ont-ils exprimé leur consentement de manière claire ? Il ne concerne pas des individus. Le jeu de données peut-il exposer de manière directe ou indirecte des individus ? Non à notre connaissance. Ces données sont-elles conformes au RGPD ? Oui. Les données peuvent-elles avantager ou désavantager des groupes sociaux ? Non à notre connaissance. Le jeu de données contient-il des informations pouvant être considérées comme inappropriées ou offensantes ? Non à notre connaissance Organisation de fichiers Deux fichiers ZIP sont mis à disposition : Le premier fichier TextesPublicationsHAS.zip contient, pour chaque publication et pour chacune de ses ressources liées, le fichier PDF ainsi que le fichier XML text et annotated. Ce dernier existe uniquement si le fichier PDF traité suit le standard PDF/UA (tagged PDF). Le deuxieme fichier TextesPublicationsHAS_XML.zip ne contient que les fichiers semi-structurés XML pour toutes les thématiques. Arborescence des fichiers Les deux fichiers zip de ce jeu de données suivent la hiérarchie de fichiers décrite ci-dessous : ├── AVISMedicament # Thématique de la publication │ ├── p_3201790 # Id de la publication | | ├── p_3201789 # Id de la ressource | | | ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742.pdf | | | ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742_tagged.xml # Fichier XML tagged avec la date de publication comme préfixe | | | ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742_text.xml # Fichier XML text avec la date de publication comme préfixe │ ├── c_1001256 │ ├── c_1001258 │ ├── c_1001261 | ├── ... ├── AVISMedicament | ├── ... ├── AVISProduitsEtPrestations | ├── ... ├── EtudeEtEnquete | ├── ... ├── EvaluationDesPratiques | ├── ... ├── EvaluationDesProgrammesEtPolitiq | ├── ... ├── EvaluationDesTechnologiesDeSante | ├── ... ├── GuideMedecinALD | ├── ... ├── GuideMethodologique | ├── ... ├── GuidePatient | ├── ... ├── RecommandationsProfessionnelles | ├── ... ├── RecommandationVaccinale | ├── ...

HAS 公布文献文本数据集描述 本数据集的文档遵循 Gebru 等人提出的关于数据集技术规格(或 Datasheets for Datasets)的理念。具体而言,我们采纳了 Samuel Goëta 提出的法语版本。此技术规格的目标是标准化关于数据集创建目的、所含信息、应使用及不应使用的任务,以及是否可能引发伦理或法律方面的担忧的文档。 数据集创建的动机 数据集最初为何被创建?HAS 出版物的元数据可在此处获取。每篇出版物都包含相关资源。为了促进 HAS 产生的知识的再利用,本数据集提供了每个 HAS 出版物的 PDF 文件及其内部内容的半结构化文本版本。本数据集可用于哪些其他任务?例如,促进医疗信息的发现,跟踪健康知识的演变等。 数据集的误用 我们包括 HAS 网站上可用的所有出版物的历史记录。文档中包含的信息可能不是最新的。 数据集的资助或支持 数据集的创建由 HAS 资助。 数据集的组成 数据集主要包含什么内容?HAS 代理撰写的文档的原始文本(非结构化(PDF)和半结构化(XML))。 两种类型的半结构化文件可供使用:文本:包含每页原始文本的 XML 文件,标注:包含使用 HTML 标签进行格式化的文本以及文本的 XML 文件。此类文件仅存在于遵循 PDF/A 或 PDF/UA 标准的 PDF 文件中。 目前是否有一个描述数据集变量的模式?目前没有。 数据集的内容是否依赖于外部资源?是的,本数据集可与另一个关于 HAS 出版物元数据的数据集结合使用。此外,文档可能包含有关外部资源的信息。 关于这些资源的持久性有哪些保证?HAS 出版物元数据数据集由 HAS 代理确保。其余部分则取决于每个外部资源。 数据的收集过程 数据是如何收集的(通过传感器、手动或通过计算机工具等)?出版物由 HAS 代理撰写。某些出版物从内部信息系统自动发布到 HAS 网站上,其他则是手动添加的。从 HAS 网站收集数据是通过计算机工具完成的。 谁确保了数据收集过程?(代理、志愿者、学生等)HAS 代理。 数据收集的时期是什么时候?数据集包含从 1999 年 6 月起创建的出版物文本。 数据是直接收集的还是从其他数据中推断出来的?直接收集。 数据是在样本上收集的吗?根据哪些方法?是的。我们仅包括与 HAS 专家生产相关的某些类型的出版物,排除与网站文档管理系统相关的出版物。包括/排除的出版物如下: ...(以下省略部分内容,具体内容请参考原文) 已知错误、局限性、噪声或冗余来源 PDF 转文本的过程可能会引入拼写错误,甚至使内容变得难以阅读。对于大多数半结构化文件(XML),我们失去了表格的概念以及图像。创建 annotated XML 文件取决于原始 PDF 文件创建者的标注。默认情况下,此标记是自动完成的(例如,通过 Office 365 在将 docx 转换为 pdf 时)。这种做法可能包含错误。 数据预处理 数据是如何清洗或准备的?对 PDF 文件没有进行任何预处理。是否保留了“原始”数据?是否进行了分发?是的,PDF 文件作为数据集的一部分进行了分发。 数据预处理工具是否可用?是的,在对应数据集的代码存储库中。 数据集的分发 数据是否在线分发?根据哪些条件(在开放数据门户、网站、API 上等)?是的,在 data.gouv.fr 页面上。 数据是根据哪种许可证分发的?开放许可证版本 2.0。 是否有对数据访问的版税或限制?没有。 数据集的维护 谁负责数据集的维护?如何联系这个人?负责数据集的服务是什么?HAS 的数据使命。生产数据、编辑和分发的角色是否不同?是的。由 HAS 服务生产。由 HAS 服务和通信服务编辑。由 IT 服务和 HAS 的数据使命分发。 数据集是否会更新?如果是,频率如何?是的,每周更新一次。如果需要更频繁地更新,请告知我们。如果数据变得过时,如何传达此信息?通过此页面。 是否可以贡献于数据的改进?根据哪些条件?是的,通过在此页面上发表评论或直接通过电子邮件联系我们。 法律和伦理考量 如果数据集涉及个人,他们是否明确表达了同意?本数据集不涉及个人。 数据集是否可能直接或间接地暴露个人?据我们所知,不会。 这些数据是否符合 GDPR?是的。 数据是否会有利于或不利社会群体?据我们所知,不会。 数据集是否包含可能被视为不适当或冒犯性的信息?据我们所知,不会。 文件组织 提供两个 ZIP 文件:第一个文件 TextesPublicationsHAS.zip 包含每个出版物及其相关资源的 PDF 文件以及文本和 annotated XML 文件。后者仅存在于处理的 PDF 文件遵循 PDF/UA(标记 PDF)标准的情况下。第二个文件 TextesPublicationsHAS_XML.zip 仅包含所有主题的半结构化 XML 文件。 文件结构 本数据集的两个 ZIP 文件遵循以下文件结构: ...(以下省略部分内容,具体内容请参考原文)
提供机构:
www.data.gouv.fr
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作