universalner/uner_llm_instructions
收藏Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/universalner/uner_llm_instructions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Universal NER v1数据集从原始格式转换为Aya指令格式的版本,并在相同的CC-BY-SA 4.0许可下发布。它包含多种语言的数据,旨在用于多语言大语言模型的构建和调优。数据集中包含不同语言的子集及其开发/测试/训练分割的样本数量。
该数据集是Universal NER v1数据集从原始格式转换为Aya指令格式的版本,并在相同的CC-BY-SA 4.0许可下发布。它包含多种语言的数据,旨在用于多语言大语言模型的构建和调优。数据集中包含不同语言的子集及其开发/测试/训练分割的样本数量。
提供机构:
universalner
原始信息汇总
数据集卡片 - Universal NER v1 in the Aya format
数据集概述
该数据集是从原始v1格式转换为Aya指令格式,并在此处以相同的CC-BY-SA 4.0许可证和条件发布。它包含多种语言的数据,旨在用于多语言LLM的构建/调优。
语言支持
数据集支持以下语言:
- 宿务语 (ceb)
- 丹麦语 (da)
- 德语 (de)
- 英语 (en)
- 克罗地亚语 (hr)
- 葡萄牙语 (pt)
- 俄语 (ru)
- 斯洛伐克语 (sk)
- 塞尔维亚语 (sr)
- 瑞典语 (sv)
- 塔加洛语 (tl)
- 中文 (zh)
任务类别
- 标记分类 (token-classification)
数据集配置
数据集包含多个子集及其开发/测试/训练拆分,具体取决于语言。以下是各语言配置的详细信息:
英语 (en)
- en_pud
- 测试集 (test): 999 个样本
- en_ewt
- 测试集 (test): 2076 个样本
- 开发集 (dev): 2000 个样本
- 训练集 (train): 12542 个样本
葡萄牙语 (pt)
- pt_pud
- 测试集 (test): 999 个样本
- pt_bosque
- 测试集 (test): 1166 个样本
- 开发集 (dev): 1171 个样本
- 训练集 (train): 4302 个样本
瑞典语 (sv)
- sv_pud
- 测试集 (test): 999 个样本
- sv_talbanken
- 测试集 (test): 1218 个样本
- 开发集 (dev): 503 个样本
- 训练集 (train): 4302 个样本
德语 (de)
- de_pud
- 测试集 (test): 999 个样本
俄语 (ru)
- ru_pud
- 测试集 (test): 999 个样本
中文 (zh)
- zh_pud
- 测试集 (test): 999 个样本
- zh_gsd
- 测试集 (test): 499 个样本
- 开发集 (dev): 499 个样本
- 训练集 (train): 3996 个样本
- zh_gsdsimp
- 测试集 (test): 499 个样本
- 开发集 (dev): 499 个样本
- 训练集 (train): 3996 个样本
丹麦语 (da)
- da_ddt
- 测试集 (test): 564 个样本
- 开发集 (dev): 563 个样本
- 训练集 (train): 4382 个样本
克罗地亚语 (hr)
- hr_set
- 测试集 (test): 1135 个样本
- 开发集 (dev): 959 个样本
- 训练集 (train): 6917 个样本
塞尔维亚语 (sr)
- sr_set
- 测试集 (test): 519 个样本
- 开发集 (dev): 535 个样本
- 训练集 (train): 3327 个样本
斯洛伐克语 (sk)
- sk_snk
- 测试集 (test): 1060 个样本
- 开发集 (dev): 1059 个样本
- 训练集 (train): 8482 个样本
塔加洛语 (tl)
- tl_trg
- 测试集 (test): 127 个样本
- tl_ugnayan
- 测试集 (test): 93 个样本



