BramVanroy/quora-chat-dutch
收藏Hugging Face2024-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/quora-chat-dutch
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Quora Chat Dutch,包含荷兰语的对话数据,主要用于问答和文本生成任务。数据集包含48,761个对话(43,919个训练样本,4,842个测试样本),这些对话是AI助手与(模拟的)人类之间的对话,内容是从Baize的机器生成答案翻译而来。数据集经过语言识别过滤,仅保留荷兰语内容,并按照Hugging Face的方法进行了训练/测试集划分。数据集的格式为`messages`,每个对话是一个消息列表,每个消息包含角色(用户、助手或系统)和内容。数据集的翻译和主题翻译使用了OpenAI的API,翻译过程中遵循了特定的提示模板,以确保翻译的准确性和流畅性。数据集未经过人工验证,可能存在偏差,使用时需谨慎。
该数据集名为Quora Chat Dutch,包含荷兰语的对话数据,主要用于问答和文本生成任务。数据集包含48,761个对话(43,919个训练样本,4,842个测试样本),这些对话是AI助手与(模拟的)人类之间的对话,内容是从Baize的机器生成答案翻译而来。数据集经过语言识别过滤,仅保留荷兰语内容,并按照Hugging Face的方法进行了训练/测试集划分。数据集的格式为`messages`,每个对话是一个消息列表,每个消息包含角色(用户、助手或系统)和内容。数据集的翻译和主题翻译使用了OpenAI的API,翻译过程中遵循了特定的提示模板,以确保翻译的准确性和流畅性。数据集未经过人工验证,可能存在偏差,使用时需谨慎。
提供机构:
BramVanroy
原始信息汇总
数据集概述
名称: Quora Chat Dutch
语言: 荷兰语
许可: CC-BY-NC-4.0
大小: 10K<n<100K
任务类别:
- 问答
- 文本生成
标签:
- baize
- quora
- chat
数据集结构
数据实例
python { messages:[ {content: Ik wil weten hoe ik meer upvotes kan krijgen op mijn berichten., role: user}, ... ], prompt: Ik wil weten hoe ik meer upvotes kan krijgen op mijn berichten., prompt_id: a79a84a83cc11063aaa63becacdf4aaa91866a265e37818a4a9684014b7c85d9 }
数据字段
- prompt: 用户初始提示
- prompt_id: 提示的唯一哈希值
- messages: 消息列表,每个消息是一个具有角色(用户、助手或系统)和内容的字典
数据集创建
- 翻译工具: OpenAI的API,使用
gpt-3.5-turbo模型 - 翻译参数:
max_tokens=1024, temperature=0 - 翻译提示模板: 用于对话和主题翻译的特定模板
源数据
- 初始数据生成: 由Baize基于Quora数据生成
- 源语言生产者: Quora用户和OpenAI的GPT模型
使用考虑
- 翻译质量: 未经验证,使用风险自负
- 潜在偏见: 可能存在,使用时需谨慎
许可信息
- 使用限制: 商业使用不允许
- 共享和使用政策: 必须遵守OpenAI的共享和使用政策



