projecte-aina/InstruCAT
收藏Hugging Face2024-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/InstruCAT
下载链接
链接失效反馈官方服务:
资源简介:
InstruCat数据集包含216,826条加泰罗尼亚语的指令,这些指令是从多个数据集中转换而来,涵盖了多种任务类型,如摘要生成、问答、文本分类、命名实体识别、情感分析、毒性检测、短语生成、文本生成和蕴含生成等。数据集分为训练集、验证集和测试集,分别包含165,100、25,351和26,375条指令。数据集由巴塞罗那超级计算中心的语言技术部门策展,并受欧盟NextGenerationEU项目的资助。数据集采用Creative Commons Attribution-NonCommercial-NoDerivs 4.0 International许可。
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集描述
- 名称: InstruCat
- 语言: 加泰罗尼亚语 (ca-ES)
- 许可证: Creative Commons Attribution-NonCommercial-NoDerivs 4.0 International
数据集总结
InstruCat 是一个包含216,826条加泰罗尼亚语指令的数据集。该数据集从多个源数据集转换而来,包括:
- caBreu: 摘要任务,包括极端和抽象摘要。
- CatalanQA: 对应于问题。
- CaWikiTC: 文本分类任务,包括定义类别和选择所属类别。
- ceil: 命名实体识别任务,包括列出所有实体和特定类别实体。
- CoqCat: 对应于对话的首个问题。
- GuiaCat: 情感分析任务。
- IntoxiCat: 二元分类任务,判断文本是否具有毒性。
- NLUCat: 短语生成任务,表达特定意图。
- Parafraseja: 文本生成任务,生成意义等同的文本。
- PAWS-ca: 文本生成任务,生成意义等同的文本。
- sts-ca: 文本生成任务,生成意义等同的文本。
- teca: 包含推断生成和判断文本间推断关系的任务。
- WikiCat: 文本分类任务,包括定义类别和选择所属类别。
支持的任务和排行榜
- 训练大型语言模型(LLMs)
数据集结构
数据实例
数据集包含三个JSONL文件,分别对应训练、验证和测试集。
示例(测试集):
{ "ID": "Parafraseja_8977", "instruction": "Reescriu aquesta frase sense alterar-ne el significat:", "context": "Es tracta dun tipus que ens falla ja que a ell li falla aquesta falta dinterès per tal dexercir el domini sobre lambient.", "response": "Es tracta dun tipus que ens falla perquè a ell li falla aquesta falta dinterès per exercir el domini sobre lambient.", "category": "paraphrasis" }
类别分布
| 类别 | 指令数量 | 百分比 |
|---|---|---|
| ner | 59410 | 27.39% |
| paraphrasis | 34695 | 16.00% |
| text_classification | 33393 | 15.40% |
| toxicity | 29809 | 13.74% |
| qa | 27427 | 12.64% |
| phrase_generation | 11873 | 5.47% |
| entailment_generation | 6354 | 2.93% |
| sentiment_analysis | 5750 | 2.65% |
| abstractive_summarization | 2999 | 1.38% |
| extreme_summarization | 2999 | 1.38% |
| entailment | 2117 | 0.97% |
数据分割
- train.jsonl: 165100条指令
- validation.jsonl: 25351条指令
- test.jsonl: 26375条指令
附加信息
数据集管理
- 管理单位: 巴塞罗那超级计算中心(BSC)的语言技术部门
- 资金支持: 由欧盟NextGenerationEU资助的ILENIA项目
许可证信息
- 整个工作受最严格的许可证约束,即Creative Commons Attribution-NonCommercial-NoDerivs 4.0 International许可证。
引用信息
- [N/A]
贡献
- [N/A]



