projecte-aina/MentorCA

Name: projecte-aina/MentorCA
Creator: projecte-aina
Published: 2024-05-30 08:09:35
License: 暂无描述

Hugging Face2024-05-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/MentorCA

下载链接

链接失效反馈

官方服务：

资源简介：

Mentor_CA是一个包含10,175条加泰罗尼亚语指令的开源数据集，这些指令是从西班牙语的Mentor_ES数据集机器翻译而来。数据集按照InstructGPT论文中描述的行为类别组织，包括封闭问答、开放问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴等。数据集的结构为JSON格式，每条记录对应一个指令跟随实例，包含类别、指令、上下文（如果可用）和响应。数据集旨在用于微调大型语言模型的下游任务。

提供机构：

projecte-aina

原始信息汇总

数据集概述

数据集基本信息

许可证: CC-BY-4.0
任务类别: 问答、文本生成、摘要
语言: 加泰罗尼亚语 (ca)
数据集名称: Mentor_CA
数据集大小: 1K<n<10K

数据集描述

数据集概况: Mentor_CA 是一个包含10,175条加泰罗尼亚语指令的开源数据集，这些指令是从原始的西班牙语数据集 Mentor_ES 机器翻译而来。数据集涵盖了多种行为类别，包括封闭式问答、开放式问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴。

数据集结构

数据实例: 数据集以JSON格式提供，每个记录对应一个指令遵循实例，包含类别、指令、可选的上下文和响应。
数据字段:
- category: 包含指令类型的文本字符串。
- instruction: 包含提示的文本字符串。
- context: 包含响应基础信息的文本字符串，仅在封闭式问答、信息提取和摘要中可用。
- answer: 包含对指令的响应的文本字符串。

数据集创建

来源数据: 数据由人工标注者根据八个不同的指令类别创建，其中一些类别需要从网络中选择文本作为参考。
初始数据收集和规范化: 标注者根据简短的任务描述和格式规范创建数据，同时提供示例以指导任务执行。
标注过程: 标注者分为两组，一组收集参考文本并提出问题，另一组提供对指令的响应。
标注指南: 为每个类别提供了详细的标注指南，确保指令和响应的质量和一致性。

使用数据注意事项

已知限制: 数据集内容可能反映网络中的偏见、事实错误和主题焦点。此外，标注者的构成可能影响数据的多样性和客观性。

数据集管理

数据集管理者: 语言技术部门 (langtech@bsc.es) 位于巴塞罗那超级计算中心 (BSC)。
资金支持: 该项目由加泰罗尼亚政府数字政策和领土部门资助，作为 Projecte AINA 框架的一部分。

5,000+

优质数据集

54 个

任务类型

进入经典数据集