five

BramVanroy/ultra_feedback_dutch

收藏
Hugging Face2024-04-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/ultra_feedback_dutch
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是荷兰语版本的Ultra Feedback数据集,基于HuggingFaceH4/ultrafeedback_binarized数据集,而后者又源自openbmb/UltraFeedback数据集。它包含对提示的单轮响应,旨在优化语言模型的偏好(如DPO)。数据集中的‘chosen’回答始终来自gpt-4-1106-preview,而‘rejected’回答则来自Rijgersberg/GEITje-7B-chat。数据集创建过程中,首先将英文提示翻译为荷兰语,然后分别由gpt-4-1106-preview和GEITje-7B-chat生成响应。数据集经过多次过滤,包括语言识别、非拉丁字符过滤、特定关键词过滤等,最终保留了荷兰语样本。

该数据集是荷兰语版本的Ultra Feedback数据集,基于HuggingFaceH4/ultrafeedback_binarized数据集,而后者又源自openbmb/UltraFeedback数据集。它包含对提示的单轮响应,旨在优化语言模型的偏好(如DPO)。数据集中的‘chosen’回答始终来自gpt-4-1106-preview,而‘rejected’回答则来自Rijgersberg/GEITje-7B-chat。数据集创建过程中,首先将英文提示翻译为荷兰语,然后分别由gpt-4-1106-preview和GEITje-7B-chat生成响应。数据集经过多次过滤,包括语言识别、非拉丁字符过滤、特定关键词过滤等,最终保留了荷兰语样本。
提供机构:
BramVanroy
原始信息汇总

数据集卡片 - Ultra Feedback Dutch

数据集描述

Ultra Feedback Dutch 是一个荷兰语数据集,重现了 HuggingFaceH4/ultrafeedback_binarized,该数据集基于源数据集 UltraFeedback。该数据集包含两个不同系统对单轮提示的响应,旨在优化语言模型(如 DPO)的偏好。选定的答案始终是 gpt-4-1106-preview,被拒绝的答案始终是 Rijgersberg/GEITje-7B-chat

数据集结构

数据分割

train_prefs test_prefs
48,228 5,359

数据实例

python { prompt: Wat is de redenering en vervolgens het antwoord? Ja / nee, is het volgende een verifieerbaar feit? "Boten worden vaak gebouwd met metselwerk.", prompt_id: 1db9a914ba87ef777ff60e185962eeb5257e122c1c408464156e075c324df5ea, chosen: [ {content: Wat is de redenering en vervolgens het antwoord? Ja / nee, is het volgende een verifieerbaar feit? "Boten worden vaak gebouwd met metselwerk.", role: user}, {content: Nee, dit is geen verifieerbaar feit omdat boten doorgaans niet met metselwerk worden gebouwd. De redenering hierachter is dat metselwerk het proces is van het bouwen met bakstenen, stenen, betonblokken, en dergelijke materialen die met mortel (een mengsel van zand, een bindmiddel zoals kalk of cement, en water) worden verbonden. Deze materialen zijn zwaar en niet geschikt voor de constructie van boten, omdat men bij de bouw van boten streeft naar materiaal dat licht, sterk en waterbestendig is.

Boten moeten drijven en bewegen door het water, en massieve, zware materialen zoals die gebruikt in metselwerk zouden een boot doen zinken. De meeste boten worden daarom gebouwd met materialen zoals hout, glasvezel, aluminium, en staal, die sterk en licht zijn, en zijn ontworpen om drijfvermogen te bieden. Concluderend kan worden gesteld dat de uitspraak "Boten worden vaak gebouwd met metselwerk" niet waar is., role: assistant} ], rejected: [ {content: Wat is de redenering en vervolgens het antwoord? Ja / nee, is het volgende een verifieerbaar feit? "Boten worden vaak gebouwd met metselwerk.", role: user}, {content: Ik heb geen toegang tot context om de redenering te bepalen. Uit de verstrekte zin kan niet worden afgeleid wat het perspectief is van de auteur en wat wordt bedoeld met meestal.

Echter, de verklaring: "Boten worden gebouwd met cement" is niet waar. Hoewel boten worden gebouwd met verschillende materialen, is cement niet een daarvan., role: assistant} ] }

数据字段

  • prompt: 初始用户提示
  • prompt_id: 提示的唯一哈希值
  • chosen: (gpt-4-1106-preview) 消息列表(字典),每个字典包含角色(用户、助手)和内容
  • rejected: (GEITje-7B-Chat) 消息列表(字典),每个字典包含角色(用户、助手)和内容

数据集创建

该数据集使用 此仓库 创建。translate-hf 脚本用于翻译列,answer-hf 用于为翻译后的查询创建答案。

数据过滤

除了自动内容过滤和解析问题外,还进行了额外的过滤。所有数据都保存在单独的分支中,如果您希望查看数据创建过程的历史视图。

  • 1-gpt-4-turbo-instruction-translations: 初始翻译第一个用户消息/提示
  • 2-gpt-4-turbo-answers: 添加 GPT4 的答案
  • 3-geitje-7b-chat-answers: 添加 GEITje-7B-chat 的答案
  • 4-llama-2-13b-chat-dutch-answers: 添加 Llama 2 13B Chat Dutch 的答案 - 但由于质量差,此数据未用于最终数据集
  • 5-merged: 合并前述分支的指令和答案
  • 6-gpt4-geitje: 移除 Llama 2 输出
  • 7-lid: 添加 语言识别 到列,基于 chosenrejected 列中所有 content 键的串联
  • 8-filtered: 移除检测到的文本不是荷兰语的样本。(注意这可能会移除专注于翻译的样本!)其他过滤器
    • 移除非拉丁字符的样本(非常严格的过滤,移除任何包含非拉丁语言的翻译任务)
    • 移除包含 "AI-assistent" 或 "AI-taalmodel"(及其他衍生词)的样本,因为这些通常是 "作为一个 AI 模型,我不能 ..." 之类的响应,不太有用
    • 移除提及 ChatGPT、GPT 3/4、OpenAI 或 ShareGPT 的样本
    • 移除提及典型 "知识截止" 的样本
    • 移除包含道歉如 "spijt me" 的样本,因为我们更感兴趣的是事实信息和内容丰富的响应
  • main: 基于 8-filtered 的主分支。移除所有 "无关" 列(如英语消息、语言识别)

源数据

初始数据收集和规范化

初始数据二值化由 HuggingFaceH4 完成,该数据集基于 openbmb/UltraFeedback

源语言生产者是谁?

初始数据 Ultra Feedback 数据集由多种开源模型以及 OpenAI 模型创建。这个新数据集使用 gpt-4-1106-previewRijgersberg/GEITje-7B-chat 创建荷兰语版本。

使用数据集的注意事项

请注意,除了对大约 100 个随机样本进行手动分析外,此数据集尚未经过验证或检查以发现问题。然而,OpenAI 过滤器阻止了翻译和生成的请求,这可能表明一些原始提示可能包含模糊或潜在不当内容,现在已被过滤。

在检查过程中,我发现提示的翻译有时存在问题,部分内容未被翻译。这可能发生在模型将输入解释为命令而不是翻译时。

偏见讨论

与任何机器生成的文本一样,用户应注意此数据集中可能包含的潜在偏见。数据集中可能仍然存在偏见,因此请谨慎使用。

许可信息

由于数据是使用 Azure API 创建的,并且我找不到任何关于数据使用方式的限制,您可以根据 apache 2.0 许可证随意使用此数据。

贡献

感谢 UWV 的 Michiel Buisman 联系并使创建此数据集成为可能,提供了对 Azure API 的访问权限。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作