projecte-aina/MentorCA
收藏Hugging Face2024-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/MentorCA
下载链接
链接失效反馈官方服务:
资源简介:
Mentor_CA是一个包含10,175条加泰罗尼亚语指令的开源数据集,这些指令是从西班牙语的Mentor_ES数据集机器翻译而来。数据集按照InstructGPT论文中描述的行为类别组织,包括封闭问答、开放问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴等。数据集的结构为JSON格式,每条记录对应一个指令跟随实例,包含类别、指令、上下文(如果可用)和响应。数据集旨在用于微调大型语言模型的下游任务。
Mentor_CA是一个包含10,175条加泰罗尼亚语指令的开源数据集,这些指令是从西班牙语的Mentor_ES数据集机器翻译而来。数据集按照InstructGPT论文中描述的行为类别组织,包括封闭问答、开放问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴等。数据集的结构为JSON格式,每条记录对应一个指令跟随实例,包含类别、指令、上下文(如果可用)和响应。数据集旨在用于微调大型语言模型的下游任务。
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集基本信息
- 许可证: CC-BY-4.0
- 任务类别: 问答、文本生成、摘要
- 语言: 加泰罗尼亚语 (ca)
- 数据集名称: Mentor_CA
- 数据集大小: 1K<n<10K
数据集描述
- 数据集概况: Mentor_CA 是一个包含10,175条加泰罗尼亚语指令的开源数据集,这些指令是从原始的西班牙语数据集 Mentor_ES 机器翻译而来。数据集涵盖了多种行为类别,包括封闭式问答、开放式问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴。
数据集结构
- 数据实例: 数据集以JSON格式提供,每个记录对应一个指令遵循实例,包含类别、指令、可选的上下文和响应。
- 数据字段:
category: 包含指令类型的文本字符串。instruction: 包含提示的文本字符串。context: 包含响应基础信息的文本字符串,仅在封闭式问答、信息提取和摘要中可用。answer: 包含对指令的响应的文本字符串。
数据集创建
- 来源数据: 数据由人工标注者根据八个不同的指令类别创建,其中一些类别需要从网络中选择文本作为参考。
- 初始数据收集和规范化: 标注者根据简短的任务描述和格式规范创建数据,同时提供示例以指导任务执行。
- 标注过程: 标注者分为两组,一组收集参考文本并提出问题,另一组提供对指令的响应。
- 标注指南: 为每个类别提供了详细的标注指南,确保指令和响应的质量和一致性。
使用数据注意事项
- 已知限制: 数据集内容可能反映网络中的偏见、事实错误和主题焦点。此外,标注者的构成可能影响数据的多样性和客观性。
数据集管理
- 数据集管理者: 语言技术部门 (langtech@bsc.es) 位于巴塞罗那超级计算中心 (BSC)。
- 资金支持: 该项目由加泰罗尼亚政府数字政策和领土部门资助,作为 Projecte AINA 框架的一部分。



