BramVanroy/no_robots_dutch
收藏数据集卡片 No Robots Dutch
数据集描述
No Robots Dutch 是一个荷兰语数据集,基于 HuggingFaceH4/no_robots 创建,但使用了机器人辅助。该数据集主要包含用户和助手之间的单轮聊天对话,由 gpt-4-1106-preview 通过 Azure 生成。
数据集结构
数据集包含两个用于 SFT 的拆分,每个拆分的示例数量如下:
| train_sft | test_sft |
|---|---|
| 8181 | 433 |
这意味着大约 5.29% 的数据被保留用于测试。该数据集比原始数据集小,这是由 OpenAI 自动过滤造成的。
数据实例
数据集不包含系统消息。
python { prompt: Bij welke sport past deze beschrijving - tennis, pickleball of racquetball?
Dit kan op een baan gespeeld worden, zowel binnen als buiten. Er wordt een holle bal gebruikt. Spelers gebruiken rackets om de bal tegen een muur te slaan., prompt_id: 1b55bd7fc38d8bef02593897252c28ef80f6c298797f8c1c140b75991198098e, messages: [ {content: Bij welke sport past deze beschrijving - tennis, pickleball of racquetball?
Dit kan op een baan gespeeld worden, zowel binnen als buiten. Er wordt een holle bal gebruikt. Spelers gebruiken rackets om de bal tegen een muur te slaan., role: user}, {content: "Deze beschrijving past het best bij de sport racquetball. Bij racquetball slaan spelers een holle bal met rackets tegen een muur in een binnen- of buitenbaan. Tennis en Pickleball worden weliswaar ook op een baan gespeeld en gebruiken rackets (of in het geval van pickleball, paddles), maar bij tennis slaan spelers de bal over een net naar de tegenstanders helft van de baan, en bij pickleball is dit vergelijkbaar maar dan op een kleiner veld. Bij beide sporten is het niet de bedoeling dat de bal tegen een muur wordt geslagen zoals bij racquetball.", role: assistant} ] }
数据字段
- prompt: 初始用户提示
- prompt_id: 提示的唯一哈希值
- messages: 消息列表,每个消息包含角色(用户、助手,可选系统)和内容
数据集创建
该数据集是通过 这个仓库 的 translate-hf 脚本和 answer-hf 脚本创建的。首先将英文用户消息翻译成荷兰语,然后使用 gpt-4-1106-preview 生成响应。
数据过滤
除了自动内容过滤和解析问题外,还进行了额外的过滤。所有数据都保存在单独的分支中,以便查看历史过程。
1-gpt-4-turbo-translated: 错误地翻译了prompt列,认为它是第一个用户提示(但实际上可能是系统提示)2-gpt-4-turbo-answered: 生成的回答响应翻译后的提示3-lid: 添加了语言识别4-filtered: 删除了检测到的非荷兰语文本样本5-remake-with-system: 修复了系统提示的错误6-remake-as-messages: 修复格式为典型的对话格式7-remake-lid: 更新数据集的语言识别8-remake-filtered: 更新数据集的过滤8-deduplicated: 去重main: 主分支,移除了所有“不相关”的列
过滤移除了另外 8174 个样本。
源数据
初始数据收集和规范化
初始数据由 HuggingFaceH4 创建。
源语言生产者
初始数据是由人工标注者收集的,而荷兰语版本则使用了 GPT 4。
数据使用注意事项
该数据集未经全面验证或检查,但 OpenAI 过滤器阻止了生成和翻译请求,这可能表明原始提示中包含了一些模糊或潜在不当的内容。
偏见讨论
与任何机器生成的文本一样,用户应注意数据集中可能存在的偏见,使用时需谨慎。
许可信息
该数据集根据 Apache 2.0 许可证使用。
贡献
感谢 UWV 的 Michiel Buisman,通过 Azure 的 API 访问使该数据集的创建成为可能。



