five

BramVanroy/quora-chat-dutch

收藏
Hugging Face2024-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/quora-chat-dutch
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Quora Chat Dutch,包含荷兰语的对话数据,主要用于问答和文本生成任务。数据集包含48,761个对话(43,919个训练样本,4,842个测试样本),这些对话是AI助手与(模拟的)人类之间的对话,内容是从Baize的机器生成答案翻译而来。数据集经过语言识别过滤,仅保留荷兰语内容,并按照Hugging Face的方法进行了训练/测试集划分。数据集的格式为`messages`,每个对话是一个消息列表,每个消息包含角色(用户、助手或系统)和内容。数据集的翻译和主题翻译使用了OpenAI的API,翻译过程中遵循了特定的提示模板,以确保翻译的准确性和流畅性。数据集未经过人工验证,可能存在偏差,使用时需谨慎。

该数据集名为Quora Chat Dutch,包含荷兰语的对话数据,主要用于问答和文本生成任务。数据集包含48,761个对话(43,919个训练样本,4,842个测试样本),这些对话是AI助手与(模拟的)人类之间的对话,内容是从Baize的机器生成答案翻译而来。数据集经过语言识别过滤,仅保留荷兰语内容,并按照Hugging Face的方法进行了训练/测试集划分。数据集的格式为`messages`,每个对话是一个消息列表,每个消息包含角色(用户、助手或系统)和内容。数据集的翻译和主题翻译使用了OpenAI的API,翻译过程中遵循了特定的提示模板,以确保翻译的准确性和流畅性。数据集未经过人工验证,可能存在偏差,使用时需谨慎。
提供机构:
BramVanroy
原始信息汇总

数据集概述

名称: Quora Chat Dutch

语言: 荷兰语

许可: CC-BY-NC-4.0

大小: 10K<n<100K

任务类别:

  • 问答
  • 文本生成

标签:

  • baize
  • quora
  • chat

数据集结构

数据实例

python { messages:[ {content: Ik wil weten hoe ik meer upvotes kan krijgen op mijn berichten., role: user}, ... ], prompt: Ik wil weten hoe ik meer upvotes kan krijgen op mijn berichten., prompt_id: a79a84a83cc11063aaa63becacdf4aaa91866a265e37818a4a9684014b7c85d9 }

数据字段

  • prompt: 用户初始提示
  • prompt_id: 提示的唯一哈希值
  • messages: 消息列表,每个消息是一个具有角色(用户、助手或系统)和内容的字典

数据集创建

  • 翻译工具: OpenAI的API,使用gpt-3.5-turbo模型
  • 翻译参数: max_tokens=1024, temperature=0
  • 翻译提示模板: 用于对话和主题翻译的特定模板

源数据

  • 初始数据生成: 由Baize基于Quora数据生成
  • 源语言生产者: Quora用户和OpenAI的GPT模型

使用考虑

  • 翻译质量: 未经验证,使用风险自负
  • 潜在偏见: 可能存在,使用时需谨慎

许可信息

  • 使用限制: 商业使用不允许
  • 共享和使用政策: 必须遵守OpenAI的共享和使用政策
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作