BramVanroy/alpaca-cleaned-dutch
收藏Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/alpaca-cleaned-dutch
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Alpaca Cleaned Dutch,包含51,712个荷兰语的对话,这些对话是[Alpaca Cleaned Dataset](https://huggingface.co/datasets/yahma/alpaca-cleaned)的翻译版本。数据集的主要用途是问答和文本生成任务。数据集的创建使用了OpenAI的API进行翻译,并且提供了详细的翻译提示模板。此外,README还提到了数据集的潜在偏见和翻译质量未经验证的问题,并提供了相关的引用和许可信息。
提供机构:
BramVanroy
原始信息汇总
数据集概述
- 名称: Alpaca Cleaned Dutch
- 语言: 荷兰语
- 许可: CC-BY-NC-4.0
- 大小: 10K<n<100K
- 任务类型: 问答、文本生成
- 标签: alpaca, instruct, instruction
数据集结构
数据实例
python { id: 7, instruction: Leg uit waarom de volgende breuk gelijk is aan 1/4, input: 4/16, output: De breuk 4/16 is gelijk aan 1/4 omdat zowel de teller als de noemer deelbaar zijn door 4. Door zowel de teller als de noemer door 4 te delen, krijgen we de breuk 1/4. }
数据字段
- id: 项目ID
- instruction: 给定的指令
- input: 可选输入,可为空
- output: 指令的“答案”
数据集创建
- 翻译工具: OpenAIs API for
gpt-3.5-turbo - 翻译参数:
max_tokens=1024, temperature=0 - 翻译模板: 使用特定模板确保翻译符合要求,避免翻译关键字如
instruction:,input:,output:
源数据
使用考虑
- 翻译质量: 未经验证,使用风险自负
- 许可限制: 不可用于构建与OpenAI服务竞争的商业系统
- 其他限制: 可能存在未知的翻译偏差,使用时需谨慎
贡献者
- 初始数据提供: Tatsu lab
- 数据清理: yahma
引用信息
bibtext @article{vanroy2023language, title={Language Resources for {Dutch} Large Language Modelling}, author={Vanroy, Bram}, journal={arXiv preprint arXiv:2312.12852}, year={2023} }



