comparia-votes

Name: comparia-votes
Creator: maas
Published: 2025-12-05 12:00:20
License: 暂无描述

魔搭社区2025-12-05 更新2025-11-15 收录

下载链接：

https://modelscope.cn/datasets/ministere-culture/comparia-votes

下载链接

链接失效反馈

官方服务：

资源简介：

# comparia-votes——compar:IA（Compar:IA）用户所表达的所有偏好数据集 ## 数据来源：什么是compar:IA？ [compar:IA（Compar:IA）](https://comparia.beta.gouv.fr/)是一款对话式AI对比工具（又称“聊天机器人竞技场”），由法国文化部开发，肩负双重使命： - 开展科普与宣传，提升公众对对话式AI的模型多元性、文化与语言偏见以及环境问题的认知； - 通过发布法语对齐数据集以及构建法语对话式AI模型排名（开发中），优化法语对话式AI生态。 compar:IA对比工具作为国家初创项目compar:IA的一部分开发，该项目由[数字工坊（Atelier numérique）](https://www.culture.gouv.fr/Thematiques/innovation-numerique/Aides-a-l-innovation-et-a-la-transformation-numerique/L-Atelier-numerique#:~:text=L'Atelier%20num%C3%A9rique%20est%20l,engager%20personnellement%20pour%20le%20r%C3%A9soudre.)与[AllIAnce（AllIAnce）](https://alliance.numerique.gouv.fr/)孵化，并纳入[跨部门数字总局（Interministerial Digital Directorate, DINUM）](https://www.numerique.gouv.fr/dinum/)的[beta.gouv.fr](https://beta.gouv.fr)计划——该计划旨在帮助公共行政部门打造实用、简洁且易用的数字服务。 <div style="margin: 20px 0;"> <a href="https://comparia.beta.gouv.fr/" class="button secondary">compar:IA平台官网</a> <a href="https://github.com/betagouv/ComparIA" class="button secondary">compar:IA源代码</a> </div> ## compar:IA平台上的偏好定义在compar:IA平台完成完整对话后，若用户未对单条消息进行评分，则可在揭晓模型结果前为两个模型中的一个投票；或者，用户也可判定两个模型的回答质量相当。在此之后，用户还可选择评价标签，对整场对话中的模型表现进行评分。 <video controls autoplay loop muted playsinline src="https://cdn-uploads.huggingface.co/production/uploads/649d986a474bf415c03b772c/Fv-aTZYUKDsPwS5HwNbX3.mp4"></video> ## 数据集内容截至目前，compar:IA平台累计产生超过10万次对话，所有对话均可在[comparia-conversations](https://huggingface.co/datasets/ministere-culture/comparia-conversations)数据集中获取。在这些对话中，用户累计完成超过3万次投票。本次发布的数据集包含所有参与投票的对话及其对应投票结果。该数据集的对话内容以法语为主，真实反映了无约束的实际使用场景。 ## comparia-votes数据集的字段说明 <table class="data-table"> <tr> <th>字段</th> <th>说明</th> </tr> <tr> <td><code>id</code></td> <td>数据集内每条记录的唯一标识符</td> </tr> <tr> <td><code>timestamp</code></td> <td>对话时间戳</td> </tr> <tr> <td><code>model_a_name</code></td> <td>第一个模型的名称</td> </tr> <tr> <td><code>model_b_name</code></td> <td>第二个模型的名称</td> </tr> <tr> <td><code>model_pair_name</code></td> <td>两个对比模型的集合式命名</td> </tr> <tr> <td><code>chosen_model_name</code></td> <td>用户投票选中的模型名称</td> </tr> <tr> <td><code>opening_msg</code></td> <td>用户发送的首条消息</td> </tr> <tr> <td><code>both_equal</code></td> <td>标识用户是否判定两个模型的表现相当</td> </tr> <tr> <td><code>conversation_a</code></td> <td>与第一个模型的完整对话结构</td> </tr> <tr> <td><code>conversation_b</code></td> <td>与第二个模型的完整对话结构</td> </tr> <tr> <td><code>conv_turns</code></td> <td>对话的轮次数量</td> </tr> <tr> <td><code>selected_category</code></td> <td>用户选择的提示词建议分类（若用户使用了推荐提示词）</td> </tr> <tr> <td><code>is_unedited_prompt</code></td> <td>标识推荐提示词是否被原封不动地使用</td> </tr> <tr> <td><code>conversation_pair_id</code></td> <td>对话对的唯一标识符</td> </tr> <tr> <td><code>session_hash</code></td> <td>用户会话标识符</td> </tr> <tr> <td><code>visitor_id</code></td> <td>用户的匿名唯一标识符</td> </tr> <tr> <td><code>conv_comments_a</code></td> <td>与第一个模型对话的评论</td> </tr> <tr> <td><code>conv_comments_b</code></td> <td>与第二个模型对话的评论</td> </tr> <tr> <td><code>conv_useful_a</code></td> <td>标识用户是否认为与第一个模型的对话具有实用性</td> </tr> <tr> <td><code>conv_useful_b</code></td> <td>标识用户是否认为与第二个模型的对话具有实用性</td> </tr> <tr> <td><code>conv_creative_a</code></td> <td>标识用户是否认为第一个模型的回答具有创造性</td> </tr> <tr> <td><code>conv_creative_b</code></td> <td>标识用户是否认为第二个模型的回答具有创造性</td> </tr> <tr> <td><code>conv_clear_formatting_a</code></td> <td>标识用户是否认为第一个模型的输出格式清晰</td> </tr> <tr> <td><code>conv_clear_formatting_b</code></td> <td>标识用户是否认为第二个模型的输出格式清晰</td> </tr> <tr> <td><code>conv_incorrect_a</code></td> <td>标识第一个模型的回答是否包含错误信息</td> </tr> <tr> <td><code>conv_incorrect_b</code></td> <td>标识第二个模型的回答是否包含错误信息</td> </tr> <tr> <td><code>conv_superficial_a</code></td> <td>标识用户是否认为第一个模型的回答流于表面</td> </tr> <tr> <td><code>conv_superficial_b</code></td> <td>标识用户是否认为第二个模型的回答流于表面</td> </tr> <tr> <td><code>conv_instructions_not_followed_a</code></td> <td>标识第一个模型是否未遵循用户指令</td> </tr> <tr> <td><code>conv_instructions_not_followed_b</code></td> <td>标识第二个模型是否未遵循用户指令</td> </tr> <tr> <td><code>system_prompt_b</code></td> <td>提供给第二个模型的系统提示词</td> </tr> <tr> <td><code>system_prompt_a</code></td> <td>提供给第一个模型的系统提示词</td> </tr> <tr> <td><code>conv_complete_a</code></td> <td> - </td> </tr> <tr> <td><code>conv_complete_b</code></td> <td> - </td> </tr> </table> ## 数据集用途本数据集面向模型开发者以及人工智能与社会科学研究社区开放，旨在支持以下领域的研究进展： - 对话式语言模型的训练与对齐，尤其是法语场景下的模型； - 人机交互以及对话式AI系统中的特定行为模式； - 优化大语言模型（Large Language Model, LLM）的评估方法； - 人工智能安全与内容审核。若您使用compar:IA数据集，我们期待了解您的应用场景与反馈意见——您的反馈将帮助我们优化数据集的复用体验。您可通过<a href="mailto:contact@comparia.beta.gouv.fr">contact@comparia.beta.gouv.fr</a>与我们取得联系。 ## 数据后处理用户同意通过平台的“使用条款”页面进行收集。我们已开展个人可识别信息（Personally Identifiable Information, PII）检测（检测结果将在数据集的`contains_pii`字段中展示），并对包含此类信息的对话进行匿名化处理。但我们未对潜在的有害或仇恨内容进行任何过滤或处理，以确保研究人员能够在真实场景中研究与大语言模型应用相关的安全问题。 ## 授权协议在不涉及第三方对模型生成结果主张权利的前提下，本数据集采用Etalab 2.0开放许可协议进行授权。用户需自行确保其对数据集的使用符合相关法律法规，尤其是个人数据保护相关规定以及各模型服务商的使用条款。 ## 其他compar:IA数据集 <div class="datasets-grid"> <div class="highlight-box"> <h3>comparIA-conversations</h3> <p>该数据集包含compar:IA平台上所有用户提问与模型回复内容。</p> <div class="datasets-buttons"> <a href="https://huggingface.co/datasets/ministere-culture/comparia-conversations" class="button secondary">浏览comparIA-conversations数据集</a> </div> </div> <div class="highlight-box"> <h3>comparIA-reactions</h3> <p>该数据集收集了用户在消息层面上对compar:IA平台的反馈，逐消息反映了用户在整个对话过程中表达的偏好。</p> <div class="datasets-buttons"> <a href="https://huggingface.co/datasets/ministere-culture/comparia-reactions" class="button secondary">浏览comparIA-reactions数据集</a> </div> </div> </div> <div class="contact-section"> <h3>举报敏感数据</h3> <p>若您发现数据集中存在疑似包含个人可识别信息或敏感数据的条目，请通过<a href="https://adtk8x51mbw.eu.typeform.com/to/B49aloXZ">此简短表单</a>告知我们。</p> <h3>联系方式</h3> <p>如有任何问题或信息咨询，请联系<a href="mailto:contact@comparia.beta.gouv.fr">contact@comparia.beta.gouv.fr</a></p> <div style="margin-top: 30px;"> <a href="https://beta.gouv.fr"> <img src="https://cdn-uploads.huggingface.co/production/uploads/649d986a474bf415c03b772c/Zk4YiqgKu9sm5ydQ7fhSq.png" alt="法国文化部、beta.gouv与数字工坊的标志" style="max-width: 400px;"> </a> </div> </div> <div align="center"> <br /> <a href="https://digitalpublicgoods.net/r/comparia" target="_blank" rel="noopener noreferrer"><img src="https://github.com/DPGAlliance/dpg-resources/blob/main/docs/assets/dpg-badge.png?raw=true" width="100" alt="数字公共产品徽章"></a> </div>

提供机构：

maas

创建时间：

2025-05-30

搜集汇总

数据集介绍