BramVanroy/ultra_feedback_dutch
收藏数据集卡片 - Ultra Feedback Dutch
数据集描述
Ultra Feedback Dutch 是一个荷兰语数据集,重现了 HuggingFaceH4/ultrafeedback_binarized,该数据集基于源数据集 UltraFeedback。该数据集包含两个不同系统对单轮提示的响应,旨在优化语言模型(如 DPO)的偏好。选定的答案始终是 gpt-4-1106-preview,被拒绝的答案始终是 Rijgersberg/GEITje-7B-chat。
数据集结构
数据分割
| train_prefs | test_prefs |
|---|---|
| 48,228 | 5,359 |
数据实例
python { prompt: Wat is de redenering en vervolgens het antwoord? Ja / nee, is het volgende een verifieerbaar feit? "Boten worden vaak gebouwd met metselwerk.", prompt_id: 1db9a914ba87ef777ff60e185962eeb5257e122c1c408464156e075c324df5ea, chosen: [ {content: Wat is de redenering en vervolgens het antwoord? Ja / nee, is het volgende een verifieerbaar feit? "Boten worden vaak gebouwd met metselwerk.", role: user}, {content: Nee, dit is geen verifieerbaar feit omdat boten doorgaans niet met metselwerk worden gebouwd. De redenering hierachter is dat metselwerk het proces is van het bouwen met bakstenen, stenen, betonblokken, en dergelijke materialen die met mortel (een mengsel van zand, een bindmiddel zoals kalk of cement, en water) worden verbonden. Deze materialen zijn zwaar en niet geschikt voor de constructie van boten, omdat men bij de bouw van boten streeft naar materiaal dat licht, sterk en waterbestendig is.
Boten moeten drijven en bewegen door het water, en massieve, zware materialen zoals die gebruikt in metselwerk zouden een boot doen zinken. De meeste boten worden daarom gebouwd met materialen zoals hout, glasvezel, aluminium, en staal, die sterk en licht zijn, en zijn ontworpen om drijfvermogen te bieden. Concluderend kan worden gesteld dat de uitspraak "Boten worden vaak gebouwd met metselwerk" niet waar is., role: assistant} ], rejected: [ {content: Wat is de redenering en vervolgens het antwoord? Ja / nee, is het volgende een verifieerbaar feit? "Boten worden vaak gebouwd met metselwerk.", role: user}, {content: Ik heb geen toegang tot context om de redenering te bepalen. Uit de verstrekte zin kan niet worden afgeleid wat het perspectief is van de auteur en wat wordt bedoeld met meestal.
Echter, de verklaring: "Boten worden gebouwd met cement" is niet waar. Hoewel boten worden gebouwd met verschillende materialen, is cement niet een daarvan., role: assistant} ] }
数据字段
- prompt: 初始用户提示
- prompt_id: 提示的唯一哈希值
- chosen: (gpt-4-1106-preview) 消息列表(字典),每个字典包含角色(用户、助手)和内容
- rejected: (GEITje-7B-Chat) 消息列表(字典),每个字典包含角色(用户、助手)和内容
数据集创建
该数据集使用 此仓库 创建。translate-hf 脚本用于翻译列,answer-hf 用于为翻译后的查询创建答案。
数据过滤
除了自动内容过滤和解析问题外,还进行了额外的过滤。所有数据都保存在单独的分支中,如果您希望查看数据创建过程的历史视图。
1-gpt-4-turbo-instruction-translations: 初始翻译第一个用户消息/提示2-gpt-4-turbo-answers: 添加 GPT4 的答案3-geitje-7b-chat-answers: 添加 GEITje-7B-chat 的答案4-llama-2-13b-chat-dutch-answers: 添加 Llama 2 13B Chat Dutch 的答案 - 但由于质量差,此数据未用于最终数据集5-merged: 合并前述分支的指令和答案6-gpt4-geitje: 移除 Llama 2 输出7-lid: 添加 语言识别 到列,基于chosen和rejected列中所有content键的串联8-filtered: 移除检测到的文本不是荷兰语的样本。(注意这可能会移除专注于翻译的样本!)其他过滤器- 移除非拉丁字符的样本(非常严格的过滤,移除任何包含非拉丁语言的翻译任务)
- 移除包含 "AI-assistent" 或 "AI-taalmodel"(及其他衍生词)的样本,因为这些通常是 "作为一个 AI 模型,我不能 ..." 之类的响应,不太有用
- 移除提及 ChatGPT、GPT 3/4、OpenAI 或 ShareGPT 的样本
- 移除提及典型 "知识截止" 的样本
- 移除包含道歉如 "spijt me" 的样本,因为我们更感兴趣的是事实信息和内容丰富的响应
main: 基于8-filtered的主分支。移除所有 "无关" 列(如英语消息、语言识别)
源数据
初始数据收集和规范化
初始数据二值化由 HuggingFaceH4 完成,该数据集基于 openbmb/UltraFeedback。
源语言生产者是谁?
初始数据 Ultra Feedback 数据集由多种开源模型以及 OpenAI 模型创建。这个新数据集使用 gpt-4-1106-preview 和 Rijgersberg/GEITje-7B-chat 创建荷兰语版本。
使用数据集的注意事项
请注意,除了对大约 100 个随机样本进行手动分析外,此数据集尚未经过验证或检查以发现问题。然而,OpenAI 过滤器阻止了翻译和生成的请求,这可能表明一些原始提示可能包含模糊或潜在不当内容,现在已被过滤。
在检查过程中,我发现提示的翻译有时存在问题,部分内容未被翻译。这可能发生在模型将输入解释为命令而不是翻译时。
偏见讨论
与任何机器生成的文本一样,用户应注意此数据集中可能包含的潜在偏见。数据集中可能仍然存在偏见,因此请谨慎使用。
许可信息
由于数据是使用 Azure API 创建的,并且我找不到任何关于数据使用方式的限制,您可以根据 apache 2.0 许可证随意使用此数据。
贡献
感谢 UWV 的 Michiel Buisman 联系并使创建此数据集成为可能,提供了对 Azure API 的访问权限。



