projecte-aina/MentorES
收藏Hugging Face2024-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/MentorES
下载链接
链接失效反馈官方服务:
资源简介:
Mentor_ES是一个包含10,175条西班牙语指令的开源数据集,这些指令按照InstructGPT论文中概述的多个行为类别进行组织,包括封闭问答、开放问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴。数据集的结构为JSON格式,每个记录对应一个指令跟随实例,包含类别、指令、上下文(如果可用)和响应。数据集由西班牙语母语者生成,上下文字段的文本来自网络,而响应字段则被重写。数据集可用于微调大型语言模型以执行下游任务。
Mentor_ES是一个包含10,175条西班牙语指令的开源数据集,这些指令按照InstructGPT论文中概述的多个行为类别进行组织,包括封闭问答、开放问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴。数据集的结构为JSON格式,每个记录对应一个指令跟随实例,包含类别、指令、上下文(如果可用)和响应。数据集由西班牙语母语者生成,上下文字段的文本来自网络,而响应字段则被重写。数据集可用于微调大型语言模型以执行下游任务。
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集名称
- Mentor_ES
数据集大小
- 1K<n<10K
语言
- 西班牙语 (es-ES)
许可
- CC BY 4.0
任务类别
- 问答
- 摘要
- 文本生成
数据集结构
数据实例
- 格式: JSON
- 结构: 每个记录包含类别、指令、上下文(如有)和响应。
数据字段
category: 指令类型instruction: 提示context: 上下文信息answer: 响应
数据分割
- 未提供标准分割,仅根据生成数据集的类别进行分类。
数据集创建
来源数据
- 人类生成数据: 注释者创建了八种不同指令类别的提示/响应对。
- 网络: 对于需要参考文本的指令类别,贡献者从任何网站选择段落。
初始数据收集和规范化
- 注释者根据简短的任务描述和格式规范创建数据。
注释者
- 语言: 数据由西班牙语母语注释者生成。
- 过程: 分为两组,一组收集参考文本并提问,另一组提供响应。
数据集用途
- 用于微调大型语言模型以执行下游任务。
数据集创建者
- 机构: 巴塞罗那超级计算中心(BSC)的语言技术部门。
- 资助: 加泰罗尼亚政府数字政策和领土部门,项目AINA框架内。



