five

projecte-aina/MentorCA

收藏
Hugging Face2024-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/MentorCA
下载链接
链接失效反馈
官方服务:
资源简介:
Mentor_CA是一个包含10,175条加泰罗尼亚语指令的开源数据集,这些指令是从西班牙语的Mentor_ES数据集机器翻译而来。数据集按照InstructGPT论文中描述的行为类别组织,包括封闭问答、开放问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴等。数据集的结构为JSON格式,每条记录对应一个指令跟随实例,包含类别、指令、上下文(如果可用)和响应。数据集旨在用于微调大型语言模型的下游任务。

Mentor_CA是一个包含10,175条加泰罗尼亚语指令的开源数据集,这些指令是从西班牙语的Mentor_ES数据集机器翻译而来。数据集按照InstructGPT论文中描述的行为类别组织,包括封闭问答、开放问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴等。数据集的结构为JSON格式,每条记录对应一个指令跟随实例,包含类别、指令、上下文(如果可用)和响应。数据集旨在用于微调大型语言模型的下游任务。
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集基本信息

  • 许可证: CC-BY-4.0
  • 任务类别: 问答、文本生成、摘要
  • 语言: 加泰罗尼亚语 (ca)
  • 数据集名称: Mentor_CA
  • 数据集大小: 1K<n<10K

数据集描述

  • 数据集概况: Mentor_CA 是一个包含10,175条加泰罗尼亚语指令的开源数据集,这些指令是从原始的西班牙语数据集 Mentor_ES 机器翻译而来。数据集涵盖了多种行为类别,包括封闭式问答、开放式问答、一般问答、分类、信息提取、摘要、创意写作和头脑风暴。

数据集结构

  • 数据实例: 数据集以JSON格式提供,每个记录对应一个指令遵循实例,包含类别、指令、可选的上下文和响应。
  • 数据字段:
    • category: 包含指令类型的文本字符串。
    • instruction: 包含提示的文本字符串。
    • context: 包含响应基础信息的文本字符串,仅在封闭式问答、信息提取和摘要中可用。
    • answer: 包含对指令的响应的文本字符串。

数据集创建

  • 来源数据: 数据由人工标注者根据八个不同的指令类别创建,其中一些类别需要从网络中选择文本作为参考。
  • 初始数据收集和规范化: 标注者根据简短的任务描述和格式规范创建数据,同时提供示例以指导任务执行。
  • 标注过程: 标注者分为两组,一组收集参考文本并提出问题,另一组提供对指令的响应。
  • 标注指南: 为每个类别提供了详细的标注指南,确保指令和响应的质量和一致性。

使用数据注意事项

  • 已知限制: 数据集内容可能反映网络中的偏见、事实错误和主题焦点。此外,标注者的构成可能影响数据的多样性和客观性。

数据集管理

  • 数据集管理者: 语言技术部门 (langtech@bsc.es) 位于巴塞罗那超级计算中心 (BSC)。
  • 资金支持: 该项目由加泰罗尼亚政府数字政策和领土部门资助,作为 Projecte AINA 框架的一部分。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作