five

BramVanroy/alpaca-cleaned-dutch

收藏
Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/alpaca-cleaned-dutch
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Alpaca Cleaned Dutch,包含51,712个荷兰语的对话,这些对话是[Alpaca Cleaned Dataset](https://huggingface.co/datasets/yahma/alpaca-cleaned)的翻译版本。数据集的主要用途是问答和文本生成任务。数据集的创建使用了OpenAI的API进行翻译,并且提供了详细的翻译提示模板。此外,README还提到了数据集的潜在偏见和翻译质量未经验证的问题,并提供了相关的引用和许可信息。
提供机构:
BramVanroy
原始信息汇总

数据集概述

  • 名称: Alpaca Cleaned Dutch
  • 语言: 荷兰语
  • 许可: CC-BY-NC-4.0
  • 大小: 10K<n<100K
  • 任务类型: 问答、文本生成
  • 标签: alpaca, instruct, instruction

数据集结构

数据实例

python { id: 7, instruction: Leg uit waarom de volgende breuk gelijk is aan 1/4, input: 4/16, output: De breuk 4/16 is gelijk aan 1/4 omdat zowel de teller als de noemer deelbaar zijn door 4. Door zowel de teller als de noemer door 4 te delen, krijgen we de breuk 1/4. }

数据字段

  • id: 项目ID
  • instruction: 给定的指令
  • input: 可选输入,可为空
  • output: 指令的“答案”

数据集创建

  • 翻译工具: OpenAIs API for gpt-3.5-turbo
  • 翻译参数: max_tokens=1024, temperature=0
  • 翻译模板: 使用特定模板确保翻译符合要求,避免翻译关键字如instruction:, input:, output:

源数据

  • 初始数据创建: Tatsu lab
  • 数据清理: Yahma
  • 原始数据生成工具: OpenAIs text-davinci-003

使用考虑

  • 翻译质量: 未经验证,使用风险自负
  • 许可限制: 不可用于构建与OpenAI服务竞争的商业系统
  • 其他限制: 可能存在未知的翻译偏差,使用时需谨慎

贡献者

  • 初始数据提供: Tatsu lab
  • 数据清理: yahma

引用信息

bibtext @article{vanroy2023language, title={Language Resources for {Dutch} Large Language Modelling}, author={Vanroy, Bram}, journal={arXiv preprint arXiv:2312.12852}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作