BramVanroy/quora-chat-dutch

Name: BramVanroy/quora-chat-dutch
Creator: BramVanroy
Published: 2024-01-15 11:10:38
License: 暂无描述

Hugging Face2024-01-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BramVanroy/quora-chat-dutch

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Quora Chat Dutch，包含荷兰语的对话数据，主要用于问答和文本生成任务。数据集包含48,761个对话（43,919个训练样本，4,842个测试样本），这些对话是AI助手与（模拟的）人类之间的对话，内容是从Baize的机器生成答案翻译而来。数据集经过语言识别过滤，仅保留荷兰语内容，并按照Hugging Face的方法进行了训练/测试集划分。数据集的格式为`messages`，每个对话是一个消息列表，每个消息包含角色（用户、助手或系统）和内容。数据集的翻译和主题翻译使用了OpenAI的API，翻译过程中遵循了特定的提示模板，以确保翻译的准确性和流畅性。数据集未经过人工验证，可能存在偏差，使用时需谨慎。

提供机构：

BramVanroy

原始信息汇总

数据集概述

名称: Quora Chat Dutch

语言: 荷兰语

许可: CC-BY-NC-4.0

大小: 10K<n<100K

任务类别:

问答
文本生成

标签:

baize
quora
chat

数据集结构

数据实例

python { messages:[ {content: Ik wil weten hoe ik meer upvotes kan krijgen op mijn berichten., role: user}, ... ], prompt: Ik wil weten hoe ik meer upvotes kan krijgen op mijn berichten., prompt_id: a79a84a83cc11063aaa63becacdf4aaa91866a265e37818a4a9684014b7c85d9 }

数据字段

prompt: 用户初始提示
prompt_id: 提示的唯一哈希值
messages: 消息列表，每个消息是一个具有角色（用户、助手或系统）和内容的字典

数据集创建

翻译工具: OpenAI的API，使用gpt-3.5-turbo模型
翻译参数: max_tokens=1024, temperature=0
翻译提示模板: 用于对话和主题翻译的特定模板

源数据

初始数据生成: 由Baize基于Quora数据生成
源语言生产者: Quora用户和OpenAI的GPT模型

使用考虑

翻译质量: 未经验证，使用风险自负
潜在偏见: 可能存在，使用时需谨慎

许可信息

使用限制: 商业使用不允许
共享和使用政策: 必须遵守OpenAI的共享和使用政策

5,000+

优质数据集

54 个

任务类型

进入经典数据集