Dossiers fictifs de médecine générale
收藏www.data.gouv.fr2022-06-29 更新2025-01-22 收录
下载链接:
https://www.data.gouv.fr/fr/datasets/dossiers-fictifs-de-medecine-generale/
下载链接
链接失效反馈官方服务:
资源简介:
Ce jeu d'exercice comporte des dossiers fictifs de médecine générale sous format json proposés pour le Défi iDoc Santé (défi 1A). Motivations pour la création du jeu de données Pourquoi le jeu de données a-t-il été initialement créé ? Ces dossiers médicaux figurent des notes fictives de médecins généralistes dans leur activité de premier recours au cours de consultations successives. Ces informations constituent l'essentiel de la traçabilité constitué par le professionnel de santé dans son dossier médical. Ce jeu de données a été créé pour le défi 1A du Défi iDoc Santé, qui vise à identifier automatiquement les recommandations de bonnes pratiques pertinentes dans les situations cliniques décrites dans ces dossiers médicaux. Pour quelles autres tâches le jeu de données pourrait-il être utilisé ? Des dossiers médicaux réels pourraient être utilisés pour effectuer des recherches, études ou évaluations sur la qualité des soins et les pratiques des professionnels mais ce n'est pas le cas pour les données présentées ici qui sont fictives. Quelles sont les utilisations trompeuses du jeu de données ? Le format de ces données n'est proposé que pour le défi 1A du Défi iDoc Santé. Il est conforme à aucune norme d'interopérabilité, la HAS et ses partenaires dans ce concours ne promeuvent en aucun cas d'autre usage de ce format. Qui a financé ou soutenu la création du jeu de données ? La HAS est à l'origine de la rédaction de ces dossiers médicaux fictifs. Ils s'inspirent de véritables dossiers médicaux extraits de son logiciel de gestion de cabinet par Philippe Szidon, médecin généraliste à Paris. De ces dossiers médicaux, les épisodes d'histoires pathologiques emblématiques ont été extraits, les dates décalées aléatoirement et les détails changés. Ces « histoires pathologiques » ont ensuite été regroupées de façon aléatoire pour fabriques des histoires possibles de patients de médecine générale. Des balises ont ensuite été insérées pour produire un document json. Ces traitements ont été réalisés par Pierre Liot, HAS. Composition du jeu de données Que contient le jeu de données principalement ? Les principales informations de ces données sont des informations médicales et des prescriptions. Dispose-t-on d'un schéma décrivant les variables du jeu de données ? Oui. Le schéma json du document est fourni. Il ne correspond à aucun standard. Que contient chaque champ du jeu de données ? Le jeu de données est une liste de patients, qui comprend chacun les informations de sex, date de naissance, et une liste de prescription. Les balises json sont explicites et en français : Sex : sexe DDN : date de naissance Consultations : liste de consultations contenu d'une consultation Date_consultation : date de la consultation Resultat_consultation : diagnostics et problèmes principaux justifiant la consultation. A noter que ces contenus comportent de nombreux libellés de CISP2 Biometrie : constantes cliniques Biologie : résultats d'examen biologique Accident_travail : contenu du formulaire « Accident du travail » Text : autres notes prises lors de la consultation Est-ce que le contenu du jeu de données dépend de ressources externes ? Non. De quelles garanties dispose-t-on concernant la pérennité de ces ressources ? Le contenu médical ne dépend pas de sources externes. Processus de collecte des données Comment les données ont été collectées (avec des capteurs, manuellement par des outils informatiques…) ? Les dossiers médicaux d'origine, servant d'inspiration, ont été saisies manuellement dans le logiciel de gestion de cabinet d'un médecin généraliste. Qui a assuré le processus de collecte de données (des agents, des bénévoles, des étudiants…) ? Les dossiers initiaux ont été saisies par Philippe Szidon, médecin généraliste à Paris. Les dossiers inventés ont été saisis par Pierre Liot (HAS, neurologue) dans des outils bureautiques en s'inspirant des dossiers réels affichés via un script spécifique. Quelle a été la période de collecte des données ? De janvier 1998 à mai 2022 pour les dossiers initiaux. Les données ont-elles été collectées directement ou inférées à partir d'autres données ? Les données ont été créées en s'inspirant de données collectées directement. Les données ont-elles été collectées sur un échantillon ? Selon quelles méthodes ? Ces données représentent un échantillon très restreint, défini heuristiquement par un professionnel de santé pour illustrer une variété de situations cliniques. Quelles sont les erreurs connues, les limites, les sources de bruit ou de redondances associées à ces données ? Ces données ne sont ni exhaustives ni représentatives. Elles ne sont qu'une illustration de situations cliniques emblématiques et fréquentes telles qu'on peut les trouver dans les dossiers médicaux d'un médecin de premier recours. Elles ne sont pas publiées selon un format standard. Pré-traitement des données Comment les données ont-elles nettoyées ou préparées ? Ces dossiers médicaux ne comportent pas de nom, aucune date (naissance, consultation, arrêt ou accident de travail, …) n'est réelle. Aucune des associations pathologiques des fiches initiales n'a été conservée dès lors qu'elle n'avait pas de relation médicale connue. Ces dossiers médicaux publiés sont donc inventés et sans relation avec de réels patients. Les données « brutes » ont-elles été conservées ? Sont-elles diffusées ? Les données sources, les dossiers médicaux ayant servi d'inspiration, ne sont pas diffusées. L'outil de prétraitement des données est-il disponible ? Non. Diffusion du jeu de données Les données sont-elles diffusées en ligne ? Selon quelles modalités (sur un portail open data, un site web, une API…) ? Oui, sur cette page data.gouv.fr. Selon quelle licence les données sont-elles diffusées ? License Ouverte version 2.0 Des redevances ou des restrictions sont-elles appliquées dans l'accès aux données ? Non. Maintenance du jeu de données Qui assure la maintenance du jeu de données ? Comment peut-on contacter cette personne ? Quel est le service responsable du jeu de données ? Ce jeu de données n'est pas maintenu. La publication est réalisée par la HAS. Est-ce que les rôles sont distincts entre la production des données, leur éditorialisation et leur diffusion ? Non. La production de ces dossiers médicaux fictifs a été réalisée par la mission Data de la HAS qui en assure la diffusion. Le jeu de données sera-t-il mis à jour ? Si oui, à quelle fréquence ? Non Si les données deviennent obsolètes, comment cette information sera-t-elle communiquée ? Sur cette page. Est-il possible de contribuer à l'amélioration des données ? Selon quelles modalités ? La mission data de la HAS est à l'écoute de toute proposition constructive. Considérations légales et éthiques Si le jeu de données concerne des individus, ont-ils exprimé leur consentement de manière claire ? Les dossiers médicaux fictifs ne concernent pas des individus. Le jeu de données peut-il exposer de manière directe ou indirecte des individus ? Non. Les dossiers publiés sont fictifs. Ces données sont-elles conformes au RGPD ? Oui Les données peuvent-elles avantager ou désavantager des groupes sociaux ? Non. Le jeu de données contient-il des informations pouvant être considérées comme inappropriées ou offensantes ? Non.
本练习数据集包含针对iDoc Santé挑战(1A挑战)提供的虚构一般医学格式文件。数据集创建的动机:为何此数据集最初被创建?这些医疗记录包含了虚构的普通医生在连续咨询过程中的诊疗记录,构成了医疗专业人员在病历中形成的可追溯性的核心内容。该数据集的创建旨在应对iDoc Santé挑战的1A挑战,旨在自动识别这些医疗记录中描述的临床情况下的相关良好实践建议。此外,该数据集可用于哪些其他任务?虽然真实医疗记录可用于对护理质量和专业人员实践的研究、评估,但此处提供的数据集为虚构数据。数据集存在哪些潜在误用?这些数据的格式仅适用于iDoc Santé挑战的1A挑战,并不符合任何互操作性标准,法国国家卫生安全管理局(HAS)及其合作伙伴在此竞赛中绝不推广其他任何格式。数据集的创建得到了谁的资助或支持?法国国家卫生安全管理局(HAS)是这些虚构医疗记录的原始撰写者。这些记录以巴黎的普通医生菲利普·西东的真实医疗记录为蓝本,由菲利普·西东本人提供。从这些医疗记录中,提取了具有代表性的病理病例,随机调整了日期,并更改了细节。这些“病理病例”随后被随机组合,形成了可能的普通患者病史。随后,为了生成文档,插入了标签。这些处理由HAS的皮埃尔·利奥特完成。数据集的组成:数据集主要包含什么内容?数据集的主要信息包括医疗信息和处方信息。是否有一个描述数据集变量模式的方案?是的,提供了文档的模式。该模式并不符合任何标准。数据集中每个字段包含什么内容?数据集是一份患者列表,其中每个患者包含性别、出生日期以及处方列表。标签明确且使用法语:Sex:性别DDN:出生日期Consultations:咨询列表,包含每次咨询的内容Date_consultation:咨询日期Resultat_consultation:诊断和主要问题,这些是咨询的正当理由。值得注意的是,这些内容包含许多CISP2生物测量学标签:Biometrie:临床常规定量指标Biologie:生物化学检查结果Accident_travail:工伤表单内容Text:咨询过程中的其他笔记。数据集的内容是否依赖于外部资源?否。关于这些资源的持久性有哪些保证?医疗信息不依赖于外部来源。数据收集过程:数据是如何收集的(通过传感器、手动通过计算机工具等)?原始医疗记录,作为灵感来源,由巴黎的普通医生菲利普·西东手动输入到医生办公室管理软件中。谁负责数据收集过程(代理、志愿者、学生等)?原始记录由巴黎的普通医生菲利普·西东输入,虚构记录由HAS的神经科医生皮埃尔·利奥特在办公工具中输入,灵感来源于通过特定脚本显示的真实记录。数据收集的时期是什么时候?从1998年1月到2022年5月,用于原始记录。数据是直接收集还是从其他数据推断而来?数据是根据直接收集的数据创建的。数据是收集于样本吗?根据哪些方法?这些数据代表了一个非常有限的样本,由一位医疗专业人员根据启发式方法定义,以展示各种临床情况。已知存在哪些错误、限制、噪声或冗余来源?这些数据既不全面也不具有代表性。它们仅仅是临床典型且常见情况的示例,如初级护理医生病历中可能出现的情况。它们并非按照标准格式发布。数据预处理:数据是如何清洗或准备的?这些医疗记录不包含姓名,没有任何日期(出生日期、咨询日期、停工或工伤等)是真实的。一旦与已知医疗关系无关,初始记录中的所有病理关联均未被保留。因此,发布的这些医疗记录是虚构的,与真实患者无关。是否保留了“原始”数据?是否进行了分发?作为灵感来源的数据源,即医疗记录,并未分发。预处理数据的工具是否可用?不可用。数据集的传播:数据是否在线分发?根据何种方式(在开放数据门户、网站、API等上)?是的,在data.gouv.fr页面上。数据是根据何种许可证分发的?Open Licence version 2.0。在访问数据时是否适用版税或限制?否。数据集的维护:谁负责维护数据集?如何联系此人?负责数据集的服务是哪个?此数据集未进行维护。发布由法国国家卫生安全管理局(HAS)完成。生产数据、编辑数据和分发数据之间是否具有不同的角色?否。这些虚构医疗记录的生产由HAS的数据任务组完成,并负责其分发。数据集是否会更新?如果会,更新频率是多少?不会。如果数据变得过时,如何传达此类信息?在此页面上。是否可以以某种方式为数据的改进做出贡献?可以通过哪些方式?HAS的数据任务组愿意听取任何建设性提议。法律和伦理考量:如果数据集涉及个体,他们是否以明确的方式表达过同意?这些虚构医疗记录不涉及个体。数据集是否可能直接或间接地暴露个体?否。发布的记录是虚构的。这些数据是否符合欧盟通用数据保护条例(GDPR)?是的。数据是否可能对某些社会群体有利或不利?否。数据集中是否包含可能被视为不适当或冒犯性的信息?否。
提供机构:
www.data.gouv.fr



