Annotation des discussions publiées sur data.gouv.fr
收藏www.data.gouv.fr2021-07-09 更新2025-03-26 收录
下载链接:
https://www.data.gouv.fr/fr/datasets/annotation-des-discussions-publiees-sur-data-gouv-fr/
下载链接
链接失效反馈官方服务:
资源简介:
Mandaté par Datactivist, la Licence Professionnelle Médiations de l’Information Numérique et des Données 2020/2021, accompagnée par Samuel Goëta, a conduit un projet tuteuré ayant pour objectif d’annoter les commentaires publiés sur data.gouv.fr pour permettre leur analyse et, par la suite, la résolution des problèmes et l’amélioration de plateforme. Ce jeu de données est le fruit de ce travail réalisé par les étudiants de la Licence Professionnelle Médiations de l’Information Numérique et des Données (LP MIND) de l’Université Bordeaux Montaigne, promotion 2020/2021, dans le cadre d’un projet tuteuré encadré par Olivier LE DEUFF, maître de conférences à l'université Bordeaux-Montaigne et à l'IUT Bordeaux Montaigne, et réalisé par Florian BUCHER, Aurélien CHAIX-RENOU, Zoé DORIZY, Mathilde FERNANDEZ, Emma HERMET, Sophie METSEMAKERS, Aurore QUAGGIOTTO, Blandine SERRE, Naxan SEWDUTH. Dans le but de s'inscrire dans des bonnes pratiques, la documentation de ce jeu de données suit le modèle Datasheet for Datasets pour faciliter sa réutilisation par le plus grand nombre. Motivations pour la création du jeu de données Le site data.gouv.fr est visité par des utilisateurs de milieux différents, autant par des professionnels que par des amateurs, familiarisés à l’utilisation de bases de données ou complètement novices. Par ailleurs, les producteurs de données ne sont pas toujours formés aux bonnes pratiques de production des données ouvertes. Cette double réalité se reflète dans les commentaires, demandes d’aide, questionnements laissés par les utilisateurs sur le site data.gouv.fr. L'annotation des commentaires postés sur data.gouv.fr vise à : Identifier les problèmes rencontrés par les utilisateurs Tester et appliquer une typologie des problèmes Mieux catégoriser les discussions entre producteurs et réutilisateur (actuellement dans un champ libre) - Eventuellement, si l'équipe de data.gouv.fr s'empare de ce travail, développer de nouvelles fonctionnalités, apporter des réponses appropriées et améliorer la qualité du service rendu par data.gouv.fr. Ce travail s'inscrit également dans le cadre des réflexions engagés par Datactivist pour Etalab sur la nouvelle feuille de route open data de data.gouv.fr. Composition du jeu de données Le jeu de données annote l'intégralité les commentaires provenant du fichier discussions, disponible dans le catalogue de données de data.gouv.fr. Les discussions ont été téléchargées en janvier 2021 et traitées en février 2021. Le jeu de données est disponible au format CSV encodé en UTF-8, séparateurs virgule. La base de données est composée de ces différents champs : ID : un identifiant unique du commentaire annoté (rajouté automatiquement par Airtable) ID dgf : Il s’agit de l’identifiant unique de la discussion sur le site data.gouv.fr. Subject : “Sujet”. Il s’agit du nom du jeu de données dans lequel le fil de discussion a été créé. Title : “Titre”. Il s’agit du titre renseigné par l’utilisateur du fil de discussion ouvert, permettant de rapidement comprendre sur quoi va globalement porter le commentaire de l’utilisateur. Size : “Taille”. Le chiffre dans le champ indique le nombre de messages présents dans le fil de discussion. Si le champ affiche “1”, alors le commentaire initial n’a pas eu de réponses. Messages : “Messages”. Ici sont affichés les messages qui composent le fil de discussion. Selon ce qu’indique le champ “size”, il peut y en avoir plusieurs, indiqués par un passage à la ligne. Dans le cas d’un commentaire qui aurait été supprimé, la mention “DELETED” apparaît. Annotation : Ce champ désigne la nature du problème rencontré par l’utilisateur, chaque problème étant sélectionné selon une typologie qui sera expliquée à la suite. Dans le cas où plusieurs messages sont présents dans le fil de discussion, l’annotation ne représente que le problème du premier message. Afin d’éprouver la typologie, nous avons fait le choix de ne placer les commentaires que sous un seul type de problème. Created : "Créé". Il s’agit de la date (AAAA-MM-JJ) et de l’heure (HH:MM) auxquelles le fil de discussion a été créé sur le site data.gouv.fr. Processus de collecte des données Les données ont été collectées via le fichier discussion fourni par le site data.gouv.fr (https://www.data.gouv.fr/fr/datasets/catalogue-des-donnees-de-data-gouv-fr/). Le fichier .csv contient un total de 7961 lignes. Afin de permettre une évaluation et un cadrage efficace des nombreux commentaires de la base de données, nous avons établi une typologie des problèmes rencontrés afin de toujours pouvoir précisément indiquer l’obstacle rencontré par l’utilisateur. Cette typologie s'appuie en partie sur des travaux d’un groupe de Toronto ayant fait des recherches pour produire des indicateurs de qualité des données. De ce fait, notre typologie reprend certains de ses principes, dont des noms de catégories et certaines définitions. (https://teamopendata.org/t/toronto-outil-de-notation-de-la-qualite-des-donnees-ouvertes/1579).La typologie est séparée en différentes catégories (Accessibilité, Exploitabilité, Actualisation, Fiabilité, Compréhension, Autre), et chaque catégorie contient plusieurs types de problèmes rencontrés par l’utilisateur. La typologie figure dans les ressources associées au jeu de données. Une fois les données récupérées, l’enjeu était de pouvoir analyser et annoter dans Airtable chaque fil de discussion pour pouvoir lui attribuer un type de problème selon la typologie sélectionnée. Cette dernière a été éprouvée sur un échantillon d’une centaine de commentaires, dont le traitement a été séparé en 9, selon le nombre de participants à l’annotation. Si des problèmes étaient rencontrés lors de l’annotation, le groupe se concertait et corrigeait la typologie (ajout d’un type de problème, rectification d’une définition de problème…) Lors de l’annotation, les consignes suivantes sont appliquées : Sélection d’un seul type de problème : impossibilité de placer deux problèmes de la typologie, par souci de précision. Dans le cas de réponses au premier commentaire, la méthode choisie est de donner la priorité au premier commentaire, même si une réponse a été trouvée ou si le problème a été réglé par la suite. Les réponses sont toutefois prises en compte si elles permettent d’apporter de la précision au type de problème soulevé. Après cette phase d’essai, l'entièreté de la base de données à été séparée en 9 parties, selon le nombre de participants à l’annotation. Deux groupes de correction ont été créés pour permettre une reprise plus rapide des annotations de chacun. Une décision collégiale est prise pour les cas les plus compliqués, qui étaient souvent des commentaires présentant plusieurs types de problèmes et dont nous devions hiérarchiser le problème pour n'ajouter qu’un type de problème unique. Pré-traitement des données Il n’y a eu aucun travail de pré-traitement pour ce jeu de données. Le fichier a été récupéré en l’état, et les données brutes sont donc disponibles sur le site data.gouv.fr, en pied de page, sous le lien “catalogue des données”. Diffusion du jeu de données Le jeu de données est diffusé sur le portail data.gouv.fr avec le compte Datactivist sous Licence ouverte comme la licence initiale du catalogue de data.gouv.fr. Pour citer ce jeu de données, indiquer : source LP MIND 2020/2021 du 25/02/21 Maintenance du jeu de données Ce jeu de données est l'œuvre d’une opération ponctuelle dans le cadre d’un projet tuteuré. En raison de son caractère exceptionnel, aucune mise à jour n’est prévue. En cas de question ou de problème, il sera possible de contacter samuel/at/datactivist.coop ou de poster un commentaire ci-dessous. Considérations légales et éthiques Le jeu de données d’origine a été publié par data.gouv.fr sous licence ouverte, les informations qu’il contient peuvent donc être utilisées par toute personne, physique ou morale, qui le souhaite. La plateforme data.gouv.fr a prévu que tout utilisateur publiant un message, cède ses droits de propriété intellectuelle sur ces commentaires à l'administration : “les contributeurs publiant un commentaire dans une discussion cèdent leurs droits de propriété intellectuelle sur ceux-ci de façon non exclusive, à titre gracieux, pour le monde entier, pour toute la durée de ces droits.” (https://www.data.gouv.fr/fr/terms/) Le jeu de données contient le prénom et nom de l’usager et, dans certains cas, d’autres données à caractère personnelle dans le contenu du message comme des adresses électroniques. Pour des raisons de sécurité et parce que les données personnelles présentes au sein du jeu de données ne sont pas indispensables à son utilisation et à sa pertinence, nous avons retiré les noms des usagers et les adresses électroniques. Toutefois, en raison de la quantité de commentaires présents au sein du jeu de données (un peu moins de 8000), nous ne pouvons pas affirmer avec certitude qu’aucun ne portera atteinte à la vie privée, ne permettra une appréciation ou un jugement de valeur sur un utilisateur ou ne fera apparaître le comportement d’une personne pouvant lui porter préjudice mais cette responsabilité incombe en premier ressort au producteur.
受 Datactivist 委托,2020/2021 学年的信息数字和数据中介专业职业资格证书课程,由 Samuel Goëta 指导,开展了一项导师指导项目,旨在标注发布于 data.gouv.fr 上的评论,以便进行后续分析、问题解决及平台改进。本数据集为波尔多蒙塔尼大学信息数字和数据中介专业(LP MIND)2020/2021 届学生,在导师 Olivier LE DEUFF(波尔多蒙塔尼大学及波尔多蒙塔尼技术学院讲师)和 Florian BUCHER、Aurélien CHAIX-RENOU、Zoé DORIZY、Mathilde FERNANDEZ、Emma HERMET、Sophie METSEMAKERS、Aurore QUAGGIOTTO、Blandine SERRE、Naxan SEWDUTH 的指导下完成的项目成果。该项目旨在遵循最佳实践,数据集的文档遵循《数据集数据表》模式,以促进其广泛重用。创建数据集的动机 data.gouv.fr 网站吸引了来自不同背景的用户,包括专业人士和爱好者,他们或熟悉数据库使用,或完全新手。此外,数据生产者并不总是接受过开放数据生产的良好实践培训。这种双重现实在 data.gouv.fr 网站上的用户评论、求助请求和疑问中得到了反映。对 data.gouv.fr 上发表的评论进行标注的目的是:识别用户遇到的问题;测试和应用问题类型学;更好地分类生产者和重用者之间的讨论(目前在一个自由字段中)。- 如 data.gouv.fr 团队接管此工作,则可开发新功能、提供适当的答复并提高 data.gouv.fr 提供的服务质量。该项目还符合 Datactivist 为 Etalab 制定的 data.gouv.fr 新开放数据路线图的讨论框架。数据集组成 本数据集标注了来自 data.gouv.fr 数据目录中“discussions”文件的所有评论。讨论于 2021 年 1 月下载,并于 2021 年 2 月进行处理。数据集以 UTF-8 编码的 CSV 格式提供。数据库由以下不同字段组成:ID:标注评论的唯一标识符(由 Airtable 自动添加);ID dgf:这是 data.gouv.fr 网站上讨论的唯一标识符;Subject:“主题”。这是创建讨论线程的数据集名称;Title:“标题”。这是用户在打开的讨论线程中填写的标题,允许快速了解用户的评论将涉及什么内容;Size:“大小”。该字段中的数字表示讨论线程中的消息数量。如果该字段显示“1”,则表示初始评论没有收到回复;Messages:“消息”。此处显示构成讨论线程的消息。根据“大小”字段,可能有多条消息,通过换行符分隔。如果评论已被删除,则会出现“DELETED”的提及;Annotation:此字段指定用户遇到的问题性质,每个问题都根据以下将解释的类型学进行选择。如果讨论线程中有多条消息,则标注仅代表第一条消息中遇到的问题。为了测试类型学,我们选择将评论仅放置在单一问题类型下;Created:“创建”。这是 data.gouv.fr 网站上创建讨论线程的日期(AAAA-MM-JJ)和小时(HH:MM);数据收集过程 通过 data.gouv.fr 网站(https://www.data.gouv.fr/fr/datasets/catalogue-des-donnees-de-data-gouv-fr/)提供的“discussions”文件收集数据。CSV 文件包含总计 7961 行。为了有效地评估和界定数据库中的众多评论,我们建立了一个问题类型学,以便始终能够精确地指出用户遇到的障碍。该类型学部分基于多伦多研究小组的研究成果,后者旨在生产数据质量指标。因此,我们的类型学借鉴了其某些原则,包括分类名称和某些定义。(https://teamopendata.org/t/toronto-outil-de-notation-de-la-qualite-des-donnees-ouvertes/1579)。类型学分为不同的类别(可访问性、可利用性、更新、可靠性、理解、其他),每个类别包含用户遇到的问题类型。类型学包含在数据集的相关资源中。一旦数据被恢复,就需要在 Airtable 中分析并标注每个讨论线程,以便根据选定的类型学分配问题类型。该类型学在一百条评论样本上进行了测试,其处理被分为 9 个部分,根据注释参与者的数量。如果在标注过程中遇到问题,小组将进行讨论并修正类型学(添加问题类型、修正问题定义等)。在标注过程中,遵循以下指导原则:选择单个问题类型:由于追求精确性,不允许放置类型学中的两个问题;对于对第一条评论的回复,选择优先考虑第一条评论的方法,即使之后找到了解决方案或问题已得到解决。然而,如果回复有助于提高提出的问题类型的准确性,则应考虑回复。在测试阶段之后,整个数据库被分为 9 个部分,根据注释参与者的数量。创建了两个校正小组,以便更快地重新标注每个人的标注。对于最复杂的情况,采取集体决策,这些情况通常涉及包含多个问题类型的评论,我们需要对这些问题进行排序,以便仅添加一个唯一的问题类型。数据预处理 对于本数据集,没有进行任何预处理工作。文件以原样恢复,因此原始数据可在 data.gouv.fr 网站底部,通过“数据目录”链接获取。数据集发布 本数据集通过 data.gouv.fr 站点发布,使用 Datactivist 账户,并以与 data.gouv.fr 目录初始许可证相同的开放许可证发布。引用本数据集时,请指出:来源为 LP MIND 2020/2021,日期为 2021 年 25 月 2 日。数据集维护 本数据集是作为一个特定项目的一部分而创作的。由于其特殊性,没有计划进行更新。如有任何疑问或问题,请联系 samuel/at/datactivist.coop 或在此处发表评论。法律和伦理考量 原始数据集由 data.gouv.fr 在开放许可证下发布,因此其内容可被任何自然人或法人使用。data.gouv.fr 平台已规定,发布消息的用户将放弃其评论的知识产权:“发布者在讨论中发表评论时,非专有地、无偿地将这些评论的知识产权转让给全世界,转让期限为这些权利的全部期限。”(https://www.data.gouv.fr/fr/terms/)。数据集中包含用户的姓名和在某些情况下,消息内容中的其他个人数据,如电子邮件地址。出于安全和隐私考虑,因为数据集中包含的个人数据对于数据集的使用和相关性并非必不可少,我们已删除用户姓名和电子邮件地址。然而,由于数据集中包含的评论数量众多(略少于 8000 条),我们无法保证没有任何评论会侵犯隐私、允许对用户进行价值判断或揭示可能对用户造成损害的行为,但首要责任在于数据生产者。
提供机构:
www.data.gouv.fr



