five

universalner/uner_llm_instructions

收藏
Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/universalner/uner_llm_instructions
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Universal NER v1数据集从原始格式转换为Aya指令格式的版本,并在相同的CC-BY-SA 4.0许可下发布。它包含多种语言的数据,旨在用于多语言大语言模型的构建和调优。数据集中包含不同语言的子集及其开发/测试/训练分割的样本数量。

该数据集是Universal NER v1数据集从原始格式转换为Aya指令格式的版本,并在相同的CC-BY-SA 4.0许可下发布。它包含多种语言的数据,旨在用于多语言大语言模型的构建和调优。数据集中包含不同语言的子集及其开发/测试/训练分割的样本数量。
提供机构:
universalner
原始信息汇总

数据集卡片 - Universal NER v1 in the Aya format

数据集概述

该数据集是从原始v1格式转换为Aya指令格式,并在此处以相同的CC-BY-SA 4.0许可证和条件发布。它包含多种语言的数据,旨在用于多语言LLM的构建/调优。

语言支持

数据集支持以下语言:

  • 宿务语 (ceb)
  • 丹麦语 (da)
  • 德语 (de)
  • 英语 (en)
  • 克罗地亚语 (hr)
  • 葡萄牙语 (pt)
  • 俄语 (ru)
  • 斯洛伐克语 (sk)
  • 塞尔维亚语 (sr)
  • 瑞典语 (sv)
  • 塔加洛语 (tl)
  • 中文 (zh)

任务类别

  • 标记分类 (token-classification)

数据集配置

数据集包含多个子集及其开发/测试/训练拆分,具体取决于语言。以下是各语言配置的详细信息:

英语 (en)

  • en_pud
    • 测试集 (test): 999 个样本
  • en_ewt
    • 测试集 (test): 2076 个样本
    • 开发集 (dev): 2000 个样本
    • 训练集 (train): 12542 个样本

葡萄牙语 (pt)

  • pt_pud
    • 测试集 (test): 999 个样本
  • pt_bosque
    • 测试集 (test): 1166 个样本
    • 开发集 (dev): 1171 个样本
    • 训练集 (train): 4302 个样本

瑞典语 (sv)

  • sv_pud
    • 测试集 (test): 999 个样本
  • sv_talbanken
    • 测试集 (test): 1218 个样本
    • 开发集 (dev): 503 个样本
    • 训练集 (train): 4302 个样本

德语 (de)

  • de_pud
    • 测试集 (test): 999 个样本

俄语 (ru)

  • ru_pud
    • 测试集 (test): 999 个样本

中文 (zh)

  • zh_pud
    • 测试集 (test): 999 个样本
  • zh_gsd
    • 测试集 (test): 499 个样本
    • 开发集 (dev): 499 个样本
    • 训练集 (train): 3996 个样本
  • zh_gsdsimp
    • 测试集 (test): 499 个样本
    • 开发集 (dev): 499 个样本
    • 训练集 (train): 3996 个样本

丹麦语 (da)

  • da_ddt
    • 测试集 (test): 564 个样本
    • 开发集 (dev): 563 个样本
    • 训练集 (train): 4382 个样本

克罗地亚语 (hr)

  • hr_set
    • 测试集 (test): 1135 个样本
    • 开发集 (dev): 959 个样本
    • 训练集 (train): 6917 个样本

塞尔维亚语 (sr)

  • sr_set
    • 测试集 (test): 519 个样本
    • 开发集 (dev): 535 个样本
    • 训练集 (train): 3327 个样本

斯洛伐克语 (sk)

  • sk_snk
    • 测试集 (test): 1060 个样本
    • 开发集 (dev): 1059 个样本
    • 训练集 (train): 8482 个样本

塔加洛语 (tl)

  • tl_trg
    • 测试集 (test): 127 个样本
  • tl_ugnayan
    • 测试集 (test): 93 个样本
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作