five

projecte-aina/MentorES

收藏
Hugging Face2024-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/MentorES
下载链接
链接失效反馈
官方服务:
资源简介:
Mentor_ES是一个包含10,175条西班牙语指令的开源数据集,这些指令按照InstructGPT论文中概述的多个行为类别进行组织,包括封闭问答、开放问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴。数据集的结构为JSON格式,每个记录对应一个指令跟随实例,包含类别、指令、上下文(如果可用)和响应。数据集由西班牙语母语者生成,上下文字段的文本来自网络,而响应字段则被重写。数据集可用于微调大型语言模型以执行下游任务。

Mentor_ES是一个包含10,175条西班牙语指令的开源数据集,这些指令按照InstructGPT论文中概述的多个行为类别进行组织,包括封闭问答、开放问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴。数据集的结构为JSON格式,每个记录对应一个指令跟随实例,包含类别、指令、上下文(如果可用)和响应。数据集由西班牙语母语者生成,上下文字段的文本来自网络,而响应字段则被重写。数据集可用于微调大型语言模型以执行下游任务。
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集名称

  • Mentor_ES

数据集大小

  • 1K<n<10K

语言

  • 西班牙语 (es-ES)

许可

  • CC BY 4.0

任务类别

  • 问答
  • 摘要
  • 文本生成

数据集结构

数据实例

  • 格式: JSON
  • 结构: 每个记录包含类别、指令、上下文(如有)和响应。

数据字段

  • category: 指令类型
  • instruction: 提示
  • context: 上下文信息
  • answer: 响应

数据分割

  • 未提供标准分割,仅根据生成数据集的类别进行分类。

数据集创建

来源数据

  • 人类生成数据: 注释者创建了八种不同指令类别的提示/响应对。
  • 网络: 对于需要参考文本的指令类别,贡献者从任何网站选择段落。

初始数据收集和规范化

  • 注释者根据简短的任务描述和格式规范创建数据。

注释者

  • 语言: 数据由西班牙语母语注释者生成。
  • 过程: 分为两组,一组收集参考文本并提问,另一组提供响应。

数据集用途

  • 用于微调大型语言模型以执行下游任务。

数据集创建者

  • 机构: 巴塞罗那超级计算中心(BSC)的语言技术部门。
  • 资助: 加泰罗尼亚政府数字政策和领土部门,项目AINA框架内。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作