universalner/uner_llm_instructions

Name: universalner/uner_llm_instructions
Creator: universalner
Published: 2023-12-20 10:05:18
License: 暂无描述

Hugging Face2023-12-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/universalner/uner_llm_instructions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Universal NER v1数据集从原始格式转换为Aya指令格式的版本，并在相同的CC-BY-SA 4.0许可下发布。它包含多种语言的数据，旨在用于多语言大语言模型的构建和调优。数据集中包含不同语言的子集及其开发/测试/训练分割的样本数量。

提供机构：

universalner

原始信息汇总

数据集卡片 - Universal NER v1 in the Aya format

数据集概述

该数据集是从原始v1格式转换为Aya指令格式，并在此处以相同的CC-BY-SA 4.0许可证和条件发布。它包含多种语言的数据，旨在用于多语言LLM的构建/调优。

语言支持

数据集支持以下语言：

宿务语 (ceb)
丹麦语 (da)
德语 (de)
英语 (en)
克罗地亚语 (hr)
葡萄牙语 (pt)
俄语 (ru)
斯洛伐克语 (sk)
塞尔维亚语 (sr)
瑞典语 (sv)
塔加洛语 (tl)
中文 (zh)

任务类别

标记分类 (token-classification)

数据集配置

数据集包含多个子集及其开发/测试/训练拆分，具体取决于语言。以下是各语言配置的详细信息：

英语 (en)

en_pud
- 测试集 (test): 999 个样本
en_ewt
- 测试集 (test): 2076 个样本
- 开发集 (dev): 2000 个样本
- 训练集 (train): 12542 个样本

葡萄牙语 (pt)

pt_pud
- 测试集 (test): 999 个样本
pt_bosque
- 测试集 (test): 1166 个样本
- 开发集 (dev): 1171 个样本
- 训练集 (train): 4302 个样本

瑞典语 (sv)

sv_pud
- 测试集 (test): 999 个样本
sv_talbanken
- 测试集 (test): 1218 个样本
- 开发集 (dev): 503 个样本
- 训练集 (train): 4302 个样本

德语 (de)

de_pud
- 测试集 (test): 999 个样本

俄语 (ru)

ru_pud
- 测试集 (test): 999 个样本

中文 (zh)

zh_pud
- 测试集 (test): 999 个样本
zh_gsd
- 测试集 (test): 499 个样本
- 开发集 (dev): 499 个样本
- 训练集 (train): 3996 个样本
zh_gsdsimp
- 测试集 (test): 499 个样本
- 开发集 (dev): 499 个样本
- 训练集 (train): 3996 个样本

丹麦语 (da)

da_ddt
- 测试集 (test): 564 个样本
- 开发集 (dev): 563 个样本
- 训练集 (train): 4382 个样本

克罗地亚语 (hr)

hr_set
- 测试集 (test): 1135 个样本
- 开发集 (dev): 959 个样本
- 训练集 (train): 6917 个样本

塞尔维亚语 (sr)

sr_set
- 测试集 (test): 519 个样本
- 开发集 (dev): 535 个样本
- 训练集 (train): 3327 个样本

斯洛伐克语 (sk)

sk_snk
- 测试集 (test): 1060 个样本
- 开发集 (dev): 1059 个样本
- 训练集 (train): 8482 个样本

塔加洛语 (tl)

tl_trg
- 测试集 (test): 127 个样本
tl_ugnayan
- 测试集 (test): 93 个样本

5,000+

优质数据集

54 个

任务类型

进入经典数据集