Annotation des discussions publiées sur data.gouv.fr
收藏www.data.gouv.fr2021-07-09 更新2025-01-08 收录
下载链接:
https://www.data.gouv.fr/es/datasets/annotation-des-discussions-publiees-sur-data-gouv-fr/
下载链接
链接失效反馈官方服务:
资源简介:
Mandaté par Datactivist, la Licence Professionnelle Médiations de l’Information Numérique et des Données 2020/2021, accompagnée par Samuel Goëta, a conduit un projet tuteuré ayant pour objectif d’annoter les commentaires publiés sur data.gouv.fr pour permettre leur analyse et, par la suite, la résolution des problèmes et l’amélioration de plateforme. Ce jeu de données est le fruit de ce travail réalisé par les étudiants de la Licence Professionnelle Médiations de l’Information Numérique et des Données (LP MIND) de l’Université Bordeaux Montaigne, promotion 2020/2021, dans le cadre d’un projet tuteuré encadré par Olivier LE DEUFF, maître de conférences à l'université Bordeaux-Montaigne et à l'IUT Bordeaux Montaigne, et réalisé par Florian BUCHER, Aurélien CHAIX-RENOU, Zoé DORIZY, Mathilde FERNANDEZ, Emma HERMET, Sophie METSEMAKERS, Aurore QUAGGIOTTO, Blandine SERRE, Naxan SEWDUTH. Dans le but de s'inscrire dans des bonnes pratiques, la documentation de ce jeu de données suit le modèle Datasheet for Datasets pour faciliter sa réutilisation par le plus grand nombre. Motivations pour la création du jeu de données Le site data.gouv.fr est visité par des utilisateurs de milieux différents, autant par des professionnels que par des amateurs, familiarisés à l’utilisation de bases de données ou complètement novices. Par ailleurs, les producteurs de données ne sont pas toujours formés aux bonnes pratiques de production des données ouvertes. Cette double réalité se reflète dans les commentaires, demandes d’aide, questionnements laissés par les utilisateurs sur le site data.gouv.fr. L'annotation des commentaires postés sur data.gouv.fr vise à : Identifier les problèmes rencontrés par les utilisateurs Tester et appliquer une typologie des problèmes Mieux catégoriser les discussions entre producteurs et réutilisateur (actuellement dans un champ libre) - Eventuellement, si l'équipe de data.gouv.fr s'empare de ce travail, développer de nouvelles fonctionnalités, apporter des réponses appropriées et améliorer la qualité du service rendu par data.gouv.fr. Ce travail s'inscrit également dans le cadre des réflexions engagés par Datactivist pour Etalab sur la nouvelle feuille de route open data de data.gouv.fr. Composition du jeu de données Le jeu de données annote l'intégralité les commentaires provenant du fichier discussions, disponible dans le catalogue de données de data.gouv.fr. Les discussions ont été téléchargées en janvier 2021 et traitées en février 2021. Le jeu de données est disponible au format CSV encodé en UTF-8, séparateurs virgule. La base de données est composée de ces différents champs : ID : un identifiant unique du commentaire annoté (rajouté automatiquement par Airtable) ID dgf : Il s’agit de l’identifiant unique de la discussion sur le site data.gouv.fr. Subject : “Sujet”. Il s’agit du nom du jeu de données dans lequel le fil de discussion a été créé. Title : “Titre”. Il s’agit du titre renseigné par l’utilisateur du fil de discussion ouvert, permettant de rapidement comprendre sur quoi va globalement porter le commentaire de l’utilisateur. Size : “Taille”. Le chiffre dans le champ indique le nombre de messages présents dans le fil de discussion. Si le champ affiche “1”, alors le commentaire initial n’a pas eu de réponses. Messages : “Messages”. Ici sont affichés les messages qui composent le fil de discussion. Selon ce qu’indique le champ “size”, il peut y en avoir plusieurs, indiqués par un passage à la ligne. Dans le cas d’un commentaire qui aurait été supprimé, la mention “DELETED” apparaît. Annotation : Ce champ désigne la nature du problème rencontré par l’utilisateur, chaque problème étant sélectionné selon une typologie qui sera expliquée à la suite. Dans le cas où plusieurs messages sont présents dans le fil de discussion, l’annotation ne représente que le problème du premier message. Afin d’éprouver la typologie, nous avons fait le choix de ne placer les commentaires que sous un seul type de problème. Created : "Créé". Il s’agit de la date (AAAA-MM-JJ) et de l’heure (HH:MM) auxquelles le fil de discussion a été créé sur le site data.gouv.fr. Processus de collecte des données Les données ont été collectées via le fichier discussion fourni par le site data.gouv.fr (https://www.data.gouv.fr/fr/datasets/catalogue-des-donnees-de-data-gouv-fr/). Le fichier .csv contient un total de 7961 lignes. Afin de permettre une évaluation et un cadrage efficace des nombreux commentaires de la base de données, nous avons établi une typologie des problèmes rencontrés afin de toujours pouvoir précisément indiquer l’obstacle rencontré par l’utilisateur. Cette typologie s'appuie en partie sur des travaux d’un groupe de Toronto ayant fait des recherches pour produire des indicateurs de qualité des données. De ce fait, notre typologie reprend certains de ses principes, dont des noms de catégories et certaines définitions. (https://teamopendata.org/t/toronto-outil-de-notation-de-la-qualite-des-donnees-ouvertes/1579).La typologie est séparée en différentes catégories (Accessibilité, Exploitabilité, Actualisation, Fiabilité, Compréhension, Autre), et chaque catégorie contient plusieurs types de problèmes rencontrés par l’utilisateur. La typologie figure dans les ressources associées au jeu de données. Une fois les données récupérées, l’enjeu était de pouvoir analyser et annoter dans Airtable chaque fil de discussion pour pouvoir lui attribuer un type de problème selon la typologie sélectionnée. Cette dernière a été éprouvée sur un échantillon d’une centaine de commentaires, dont le traitement a été séparé en 9, selon le nombre de participants à l’annotation. Si des problèmes étaient rencontrés lors de l’annotation, le groupe se concertait et corrigeait la typologie (ajout d’un type de problème, rectification d’une définition de problème…) Lors de l’annotation, les consignes suivantes sont appliquées : Sélection d’un seul type de problème : impossibilité de placer deux problèmes de la typologie, par souci de précision. Dans le cas de réponses au premier commentaire, la méthode choisie est de donner la priorité au premier commentaire, même si une réponse a été trouvée ou si le problème a été réglé par la suite. Les réponses sont toutefois prises en compte si elles permettent d’apporter de la précision au type de problème soulevé. Après cette phase d’essai, l'entièreté de la base de données à été séparée en 9 parties, selon le nombre de participants à l’annotation. Deux groupes de correction ont été créés pour permettre une reprise plus rapide des annotations de chacun. Une décision collégiale est prise pour les cas les plus compliqués, qui étaient souvent des commentaires présentant plusieurs types de problèmes et dont nous devions hiérarchiser le problème pour n'ajouter qu’un type de problème unique. Pré-traitement des données Il n’y a eu aucun travail de pré-traitement pour ce jeu de données. Le fichier a été récupéré en l’état, et les données brutes sont donc disponibles sur le site data.gouv.fr, en pied de page, sous le lien “catalogue des données”. Diffusion du jeu de données Le jeu de données est diffusé sur le portail data.gouv.fr avec le compte Datactivist sous Licence ouverte comme la licence initiale du catalogue de data.gouv.fr. Pour citer ce jeu de données, indiquer : source LP MIND 2020/2021 du 25/02/21 Maintenance du jeu de données Ce jeu de données est l'œuvre d’une opération ponctuelle dans le cadre d’un projet tuteuré. En raison de son caractère exceptionnel, aucune mise à jour n’est prévue. En cas de question ou de problème, il sera possible de contacter samuel/at/datactivist.coop ou de poster un commentaire ci-dessous. Considérations légales et éthiques Le jeu de données d’origine a été publié par data.gouv.fr sous licence ouverte, les informations qu’il contient peuvent donc être utilisées par toute personne, physique ou morale, qui le souhaite. La plateforme data.gouv.fr a prévu que tout utilisateur publiant un message, cède ses droits de propriété intellectuelle sur ces commentaires à l'administration : “les contributeurs publiant un commentaire dans une discussion cèdent leurs droits de propriété intellectuelle sur ceux-ci de façon non exclusive, à titre gracieux, pour le monde entier, pour toute la durée de ces droits.” (https://www.data.gouv.fr/fr/terms/) Le jeu de données contient le prénom et nom de l’usager et, dans certains cas, d’autres données à caractère personnelle dans le contenu du message comme des adresses électroniques. Pour des raisons de sécurité et parce que les données personnelles présentes au sein du jeu de données ne sont pas indispensables à son utilisation et à sa pertinence, nous avons retiré les noms des usagers et les adresses électroniques. Toutefois, en raison de la quantité de commentaires présents au sein du jeu de données (un peu moins de 8000), nous ne pouvons pas affirmer avec certitude qu’aucun ne portera atteinte à la vie privée, ne permettra une appréciation ou un jugement de valeur sur un utilisateur ou ne fera apparaître le comportement d’une personne pouvant lui porter préjudice mais cette responsabilité incombe en premier ressort au producteur.
受 Datactivist 指派,信息与数据数字调解专业职业资格证书(2020/2021年),由 Samuel Goëta 陪同,实施了一个指导项目,旨在标注 data.gouv.fr 上发布的评论,以便进行后续的分析,进而解决相关问题并优化平台。该数据集是波尔多蒙塔涅大学信息与数据数字调解专业职业资格证书(LP MIND)2020/2021届学生在Olivier LE DEUFF教授的指导下,在Florian BUCHER、Aurélien CHAIX-RENOU、Zoé DORIZY、Mathilde FERNANDEZ、Emma HERMET、Sophie METSEMAKERS、Aurore QUAGGIOTTO、Blandine SERRE、Naxan SEWDUTH的指导下完成的工作成果。该项目是在波尔多蒙塔涅大学和波尔多蒙塔涅工商学院进行指导的。为了遵循良好实践,本数据集的文档遵循了“数据集数据表”模型,以促进其被更广泛地重用。创建数据集的动机data.gouv.fr 网站吸引了来自不同领域的用户,既有专业人士也有业余爱好者,他们既熟悉数据库的使用,也有完全的初学者。此外,数据生产者并不总是接受过开放数据生产良好实践的培训。这种双重现实在用户在 data.gouv.fr 网站上留下的评论、求助请求和疑问中得到了反映。对 data.gouv.fr 上发布的评论进行标注的目的是:识别用户遇到的问题;测试并应用问题分类;更好地对生产者和使用者之间的讨论进行分类(目前在一个自由字段中)。如果 data.gouv.fr 团队接管这项工作,可以开发新的功能,提供适当的回答,并提高 data.gouv.fr 提供的服务质量。这项工作也符合 Datactivist 为 Etalab 推行的 data.gouv.fr 新开放数据路线图所进行的反思。数据集的组成该数据集标注了来自 data.gouv.fr 数据目录中“discussions”文件的所有评论。讨论内容在 2021 年 1 月下载,并于 2021 年 2 月进行处理。数据集以 UTF-8 编码的 CSV 格式提供。数据库包含以下不同字段:ID:标注评论的唯一标识符(由 Airtable 自动添加);ID dgf:这是 data.gouv.fr 网站上讨论的唯一标识符。Subject:“主题”。这是创建讨论线程的数据集名称。Title:“标题”。这是用户创建的讨论线程的标题,允许快速了解用户评论的大致内容。Size:“大小”。字段中的数字表示讨论线程中的消息数量。如果字段显示“1”,则表示初始评论没有收到回复。Messages:“消息”。这里显示了构成讨论线程的消息。根据“大小”字段,可能有多个消息,通过换行符分隔。如果评论被删除,将显示“DELETED”。Annotation:此字段指明用户遇到的问题的性质,每个问题都根据以下将要解释的类型进行选择。如果讨论线程中包含多个消息,则标注仅代表第一个消息的问题。为了测试类型,我们选择将评论放置在单一类型的问题下。Created:“创建”。这是创建 data.gouv.fr 网站上讨论线程的日期(AAAA-MM-JJ)和时间(HH:MM)。数据收集过程数据通过 data.gouv.fr 网站提供的“discussions”文件收集(https://www.data.gouv.fr/fr/datasets/catalogue-des-donnees-de-data-gouv-fr/)。.csv 文件包含总计 7961 行。为了有效地评估和界定数据库中的大量评论,我们建立了一个问题类型学,以便始终能够精确指出用户遇到的问题。这种类型学部分基于多伦多研究小组为生产数据质量指标所进行的研究。因此,我们的类型学借鉴了其某些原则,包括类别名称和一些定义。(https://teamopendata.org/t/toronto-outil-de-notation-de-la-qualite-des-donnees-ouvertes/1579)。类型学分为不同的类别(可访问性、可用性、更新、可靠性、理解、其他),每个类别包含用户遇到的问题的多个类型。类型学包含在数据集的相关资源中。一旦数据被恢复,问题就变成了能够使用 Airtable 分析和标注每个讨论线程,以便根据选定的类型学分配问题类型。这种类型学在一百条评论的样本上进行了测试,处理过程根据参与标注的人数分为 9 部分。如果标注过程中遇到问题,小组将进行讨论并修正类型学(添加问题类型、纠正问题定义等)。在标注过程中,遵循以下指导方针:选择一个类型的问题:由于追求精确性,无法放置两个类型的问题。在回答第一个评论的情况下,选择优先考虑第一个评论的方法,即使后续找到了答案或问题已得到解决。然而,如果回答有助于提高提出的问题类型的精确性,则将考虑这些回答。在试验阶段之后,整个数据库被分成 9 部分,根据参与标注的人数。创建了两个校对小组,以便更快地重新标注每个人的标注。对于最复杂的情况,采取集体决策,这些情况通常是包含多个问题类型的评论,我们需要对问题进行排序,只添加一个独特的问题类型。数据预处理对于此数据集没有进行任何预处理工作。文件以原始状态恢复,因此原始数据可在 data.gouv.fr 网站底部,通过“数据目录”链接获得。数据集的传播该数据集在 data.gouv.fr 网站上通过 Datactivist 账户以开放许可的形式发布,作为 data.gouv.fr 目录初始许可证的一部分。引用此数据集时,请说明:LP MIND 2020/2021,来源日期 2021 年 2 月 25 日。数据集维护此数据集是作为一项一次性操作在指导项目中完成的。由于其特殊性,没有计划进行更新。如有疑问或问题,可以通过 samuel/at/datactivist.coop 或在此下方发布评论进行联系。法律和伦理考虑原始数据集由 data.gouv.fr 以开放许可发布,因此其包含的信息可以由任何个人或法人使用。data.gouv.fr 平台已规定,发布消息的用户将放弃其对评论的知识产权:“发布讨论中评论的贡献者以非排他性、免费、全球范围内、在整个权利期限内的方式放弃其对评论的知识产权。”(https://www.data.gouv.fr/fr/terms/)。数据集包含用户的姓名和某些情况下,消息内容中的其他个人信息,如电子邮件地址。出于安全和隐私考虑,因为我们认为数据集中的个人信息对于其使用和相关性并非必不可少,所以我们已删除用户姓名和电子邮件地址。然而,由于数据集中包含的评论数量(略少于 8000 条),我们无法保证没有任何评论会侵犯隐私,不会导致对用户的价值判断或损害用户的声誉,但首要责任在于数据生产者。
提供机构:
www.data.gouv.fr



