five

projecte-aina/InstruCAT

收藏
Hugging Face2024-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/InstruCAT
下载链接
链接失效反馈
官方服务:
资源简介:
InstruCat数据集包含216,826条加泰罗尼亚语的指令,这些指令是从多个数据集中转换而来,涵盖了多种任务类型,如摘要生成、问答、文本分类、命名实体识别、情感分析、毒性检测、短语生成、文本生成和蕴含生成等。数据集分为训练集、验证集和测试集,分别包含165,100、25,351和26,375条指令。数据集由巴塞罗那超级计算中心的语言技术部门策展,并受欧盟NextGenerationEU项目的资助。数据集采用Creative Commons Attribution-NonCommercial-NoDerivs 4.0 International许可。
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集描述

  • 名称: InstruCat
  • 语言: 加泰罗尼亚语 (ca-ES)
  • 许可证: Creative Commons Attribution-NonCommercial-NoDerivs 4.0 International

数据集总结

InstruCat 是一个包含216,826条加泰罗尼亚语指令的数据集。该数据集从多个源数据集转换而来,包括:

  • caBreu: 摘要任务,包括极端和抽象摘要。
  • CatalanQA: 对应于问题。
  • CaWikiTC: 文本分类任务,包括定义类别和选择所属类别。
  • ceil: 命名实体识别任务,包括列出所有实体和特定类别实体。
  • CoqCat: 对应于对话的首个问题。
  • GuiaCat: 情感分析任务。
  • IntoxiCat: 二元分类任务,判断文本是否具有毒性。
  • NLUCat: 短语生成任务,表达特定意图。
  • Parafraseja: 文本生成任务,生成意义等同的文本。
  • PAWS-ca: 文本生成任务,生成意义等同的文本。
  • sts-ca: 文本生成任务,生成意义等同的文本。
  • teca: 包含推断生成和判断文本间推断关系的任务。
  • WikiCat: 文本分类任务,包括定义类别和选择所属类别。

支持的任务和排行榜

  • 训练大型语言模型(LLMs)

数据集结构

数据实例

数据集包含三个JSONL文件,分别对应训练、验证和测试集。

示例(测试集):

{ "ID": "Parafraseja_8977", "instruction": "Reescriu aquesta frase sense alterar-ne el significat:", "context": "Es tracta dun tipus que ens falla ja que a ell li falla aquesta falta dinterès per tal dexercir el domini sobre lambient.", "response": "Es tracta dun tipus que ens falla perquè a ell li falla aquesta falta dinterès per exercir el domini sobre lambient.", "category": "paraphrasis" }

类别分布

类别 指令数量 百分比
ner 59410 27.39%
paraphrasis 34695 16.00%
text_classification 33393 15.40%
toxicity 29809 13.74%
qa 27427 12.64%
phrase_generation 11873 5.47%
entailment_generation 6354 2.93%
sentiment_analysis 5750 2.65%
abstractive_summarization 2999 1.38%
extreme_summarization 2999 1.38%
entailment 2117 0.97%

数据分割

  • train.jsonl: 165100条指令
  • validation.jsonl: 25351条指令
  • test.jsonl: 26375条指令

附加信息

数据集管理

  • 管理单位: 巴塞罗那超级计算中心(BSC)的语言技术部门
  • 资金支持: 由欧盟NextGenerationEU资助的ILENIA项目

许可证信息

  • 整个工作受最严格的许可证约束,即Creative Commons Attribution-NonCommercial-NoDerivs 4.0 International许可证。

引用信息

  • [N/A]

贡献

  • [N/A]
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作