five

turkish-nlp-suite/turkish-wikiNER

收藏
Hugging Face2026-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/turkish-nlp-suite/turkish-wikiNER
下载链接
链接失效反馈
官方服务:
资源简介:
Turkish-WikiNER数据集是一个从土耳其语维基百科句子中提取的命名实体识别(NER)数据集。该数据集包含20,000个句子,这些句子是从Kuzgunlar NER数据集中采样并重新标注的。数据集由Co-one公司进行标注,并用于新的spaCy土耳其语包中。数据集包含18种标签,数据分为训练集、验证集和测试集,分别为18000、1000和1000个实例。

Turkish-WikiNER数据集是一个从土耳其语维基百科句子中提取的命名实体识别(NER)数据集。该数据集包含20,000个句子,这些句子是从Kuzgunlar NER数据集中采样并重新标注的。数据集由Co-one公司进行标注,并用于新的spaCy土耳其语包中。数据集包含18种标签,数据分为训练集、验证集和测试集,分别为18000、1000和1000个实例。
提供机构:
turkish-nlp-suite
原始信息汇总

数据集概述

  • 名称: Turkish-WikiNER
  • 语言: 土耳其语
  • 许可证: CC-BY-SA-4.0
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 任务类别: 令牌分类
  • 任务ID: 命名实体识别
  • 美观名称: Turkish-WikiNER

数据集详情

  • 领域: 维基百科
  • 标签数量: 18
  • 数据来源: 从Kuzgunlar NER数据集抽样并重新标注的20,000个句子
  • 标注机构: Co-one

数据集实例

  • 示例结构: json { "tokens": ["词1", "词2", ...], "tags": ["标签1", "标签2", ...] }

标签列表

  • CARDINAL
  • DATE
  • EVENT
  • FAC
  • GPE
  • LANGUAGE
  • LAW
  • LOC
  • MONEY
  • NORP
  • ORDINAL
  • ORG
  • PERCENT
  • PERSON
  • PRODUCT
  • QUANTITY
  • TIME
  • TITLE
  • WORK_OF_ART

数据分割

名称 训练 验证 测试
Turkish-WikiNER 18000 1000 1000

引用信息

  • 支持: Google Developer Experts Program

  • 引用文献: A Diverse Set of Freely Available Linguistic Resources for Turkish

  • 引用格式:

    @inproceedings{altinok-2023-diverse, title = "A Diverse Set of Freely Available Linguistic Resources for {T}urkish", author = "Altinok, Duygu", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.768", pages = "13739--13750", abstract = "..." }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作