five

cyanic-selkie/wikianc

收藏
Hugging Face2023-09-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cyanic-selkie/wikianc
下载链接
链接失效反馈
官方服务:
资源简介:
WikiAnc数据集是一个多语言资源,支持多种语言,主要用于词分类任务。该数据集通过机器生成和众包两种方式创建,涵盖了与维基数据、维基百科、维基化、命名实体链接、实体链接、命名实体消歧和实体消歧相关的任务。数据集的配置部分列出了各种语言特定的训练和验证数据文件。
提供机构:
cyanic-selkie
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-sa-4.0
  • 名称: WikiAnc
  • 标注创建者:
    • 机器生成
    • 众包
  • 语言创建者:
    • 机器生成
    • 众包
  • 任务类别:
    • 标记分类
  • 多语言性: 多语言
  • 支持语言:
    • 英语 (en)
    • 宿务语 (ceb)
    • 德语 (de)
    • 瑞典语 (sv)
    • 法语 (fr)
    • 荷兰语 (nl)
    • 俄语 (ru)
    • 西班牙语 (es)
    • 意大利语 (it)
    • 阿拉伯语 (arz)
    • 波兰语 (pl)
    • 日语 (ja)
    • 中文 (zh)
    • 越南语 (vi)
    • 乌克兰语 (uk)
    • 瓦瑞语 (war)
    • 阿拉伯语 (ar)
    • 葡萄牙语 (pt)
    • 波斯语 (fa)
    • 加泰罗尼亚语 (ca)
    • 塞尔维亚语 (sr)
    • 印度尼西亚语 (id)
    • 韩语 (ko)
    • 挪威语 (no)
    • 车臣语 (ce)
    • 芬兰语 (fi)
    • 捷克语 (cs)
    • 土耳其语 (tr)
    • 匈牙利语 (hu)
    • 鞑靼语 (tt)
    • 塞尔维亚-克罗地亚语 (sh)
    • 罗马尼亚语 (ro)
    • 巴斯克语 (eu)
    • 马来语 (ms)
    • 世界语 (eo)
    • 希伯来语 (he)
    • 亚美尼亚语 (hy)
    • 丹麦语 (da)
    • 保加利亚语 (bg)
    • 威尔士语 (cy)
    • 斯洛伐克语 (sk)
    • 阿塞拜疆语 (azb)
    • 乌兹别克语 (uz)
    • 爱沙尼亚语 (et)
    • 白俄罗斯语 (be)
    • 哈萨克语 (kk)
    • 米南佳保语 (min)
    • 希腊语 (el)
    • 克罗地亚语 (hr)
    • 立陶宛语 (lt)
    • 加利西亚语 (gl)
    • 阿塞拜疆语 (az)
    • 乌尔都语 (ur)
    • 斯洛文尼亚语 (sl)
    • 伦巴第语 (lld)
    • 格鲁吉亚语 (ka)
    • 新挪威语 (nn)
    • 印地语 (hi)
    • 泰语 (th)
    • 泰米尔语 (ta)
    • 孟加拉语 (bn)
    • 拉丁语 (la)
    • 马其顿语 (mk)
    • 阿斯图里亚斯语 (ast)
    • 拉脱维亚语 (lv)
    • 南非荷兰语 (af)
    • 塔吉克语 (tg)
    • 缅甸语 (my)
    • 马尔加什语 (mg)
    • 马拉地语 (mr)
    • 阿尔巴尼亚语 (sq)
    • 波斯尼亚语 (bs)
    • 奥克语 (oc)
    • 泰卢固语 (te)
    • 马拉雅拉姆语 (ml)
    • 低地德语 (nds)
    • 布列塔尼语 (br)
    • 吉尔吉斯语 (ky)
    • 斯瓦希里语 (sw)
    • 爪哇语 (jv)
    • 伦巴第语 (lmo)
    • 尼瓦尔语 (new)
    • 旁遮普语 (pnb)
    • 威尼斯语 (vec)
    • 海地克里奥尔语 (ht)
    • 皮埃蒙特语 (pms)
    • 巴什基尔语 (ba)
    • 卢森堡语 (lb)
    • 巽他语 (su)
    • 库尔德语 (ku)
    • 爱尔兰语 (ga)
    • 西里西亚语 (szl)
    • 冰岛语 (is)
    • 弗里斯兰语 (fy)
    • 楚瓦什语 (cv)
    • 中库尔德语 (ckb)
    • 旁遮普语 (pa)
    • 他加禄语 (tl)
    • 阿拉贡语 (an)
    • 吴语 (wuu)
    • 迪维希语 (diq)
    • 伊多语 (io)
    • 苏格兰语 (sco)
    • 沃拉普克语 (vo)
    • 约鲁巴语 (yo)
    • 尼泊尔语 (ne)
    • 国际语 (ia)
    • 卡纳达语 (kn)
    • 古吉拉特语 (gu)
    • 阿尔萨斯语 (als)
    • 豪萨语 (ha)
    • 科耶-巴萨语 (avk)
    • 巴伐利亚语 (bar)
    • 克里米亚鞑靼语 (crh)
    • 西西里语 (scn)
    • 比哈尔语 (bpy)
    • 克丘亚语 (qu)
    • 蒙古语 (mn)
    • 纳瓦霍语 (nv)
    • 明格列尔语 (xmf)
    • 巴厘语 (ban)
    • 僧伽罗语 (si)
    • 通布卡语 (tum)
    • 普什图语 (ps)
    • 伊博语 (ig)
    • 北弗里西亚语 (frr)
    • 奥塞梯语 (os)
    • 马赞德兰语 (mzn)
    • 奥里亚语 (or)
    • 雅库特语 (sah)
    • 闽东语 (cdo)
    • 苏格兰盖尔语 (gd)
    • 布吉语 (bug)
    • 意第绪语 (yi)
    • 信德语 (sd)
    • 伊洛卡诺语 (ilo)
    • 阿姆哈拉语 (am)
    • 那不勒斯语 (nap)
    • 林堡语 (li)
    • 比科尔语 (bcl)
    • 法罗语 (fo)
    • 哥伦打洛语 (gor)
    • 上索布语 (hsb)
    • 迈蒂利语 (mai)
    • 掸语 (shn)
    • 埃米利亚-罗马涅语 (eml)
    • 阿塞拜疆语 (ace)
    • 梵语 (sa)
    • 阿萨姆语 (as)
    • 瓦隆语 (wa)
    • 国际语 (ie)
    • 西阿尔巴尼亚语 (hyw)
    • 利古里亚语 (lij)
    • 马里语 (mhr)
    • 祖鲁语 (zu)
    • 绍纳语 (sn)
    • 印地语 (hif)
    • 巴里语 (mrj)
    • 班亚尔语 (bjn)
    • 高棉语 (km)
    • 曼尼普尔语 (mni)
    • 客家语 (hak)
    • 邦板牙语 (pam)
    • 桑塔利语 (sat)
    • 鲁塞尼亚语 (rue)
    • 北索托语 (nso)
    • 比哈尔语 (bh)
    • 索马里语 (so)
    • 毛利语 (mi)
    • 北萨米语 (se)
    • 莫克沙语 (myv)
    • 弗拉芒语 (vls)
    • 达格语 (dag)
    • 苏格兰盖尔语 (sc)
    • 科西嘉语 (co)
    • 摩洛哥阿拉伯语 (ary)
    • 康沃尔语 (kw)
    • 藏语 (bo)
    • 维普森语 (vep)
    • 吉拉克语 (glk)
    • 土库曼语 (tk)
    • 卡拜尔语 (kab)
    • 赣语 (gan)
    • 卢旺达语 (rw)
    • 阿布哈兹语 (ab)
    • 马恩语 (gv)
    • 维吾尔语 (ug)
    • 纳瓦特尔语 (nah)
    • 泽兰语 (zea)
    • 信德语 (skr)
    • 弗留利语 (fur)
    • 乌德穆尔特语 (udm)
    • 皮卡第语 (pcd)
    • 马耳他语 (mt)
    • 科米语 (kv)
    • 卡舒比语 (csb)
    • 瓜拉尼语 (gn)
    • 伊纳里萨米语 (smn)
    • 艾马拉语 (ay)
    • 诺曼语 (nrm)
    • 卡拉恰伊-巴尔卡尔语 (ks)
    • 列兹金语 (lez)
    • 新共同语言 (lfn)
    • 奥洛维茨语 (olo)
    • 米兰德斯语 (mwl)
    • 老挝语 (lo)
    • 中萨米语 (stq)
    • 古英语 (ang)
    • 莫尔多瓦语 (mdf)
    • 罗曼什语 (rm)
    • 拉迪诺语 (lad)
    • 卡拉卡尔帕克语 (kaa)
    • 孔卡尼语 (gom)
    • 埃斯特雷马杜拉语 (ext)
    • 科米-彼尔米亚克语 (koi)
    • 图瓦语 (tyv)
    • 帕皮阿门托语 (pap)
    • 阿瓦尔语 (av)
    • 下索布语 (dsb)
    • 林加拉语 (ln)
    • 迪格里语 (dty)
    • 特威语 (tw)
    • 迪维希语 (dv)
    • 科隆语 (ksh)
    • 壮语 (za)
    • 加告兹语 (gag)
    • 布里亚特语 (bxr)
    • 普法尔茨语 (pfl)
    • 隆达语 (lg)
    • 松兹瓦尔语 (szy)
    • 邦阿西楠语 (pag)
    • 布拉克语 (blk)
    • 比哈尔语 (pi)
    • 泰雅语 (tay)
    • 夏威夷语 (haw)
    • 阿瓦德语 (awa)
    • 印古什语 (inh)
    • 卡拉恰伊-巴尔卡尔语 (krc)
    • 卡尔梅克语 (xal)
    • 宾夕法尼亚德语 (pdc)
    • 汤加语 (to)
    • 阿提卡姆语 (atj)
    • 图卢语 (tcy)
    • 亚拉姆语 (arc)
    • 孟语 (mnw)
    • 希尔哈语 (shi)
    • 牙买加克里奥尔语 (jam)
    • 基皮亚语 (kbp)
    • 沃洛夫语 (wo)
    • 昂加语 (anp)
    • 卡巴尔达语 (kbd)
    • 尼亚斯语 (nia)
    • 奥罗莫语 (om)
    • 诺维亚语 (nov)
    • 基库尤语 (ki)
    • 恩古尼语 (nqo)
    • 比斯拉马语 (bi)
    • 科萨语 (xh)
    • 托克皮辛语 (tpi)
    • 富拉语 (ff)
    • 德顿语 (tet)
    • 逻辑语 (jbo)
    • 斐济语 (fj)
    • 刚果语 (kg)
    • 列兹金语 (lbe)
    • 蒂格尼亚语 (ty)
    • 古教会斯拉夫语 (cu)
    • 古吉拉特语 (guw)
    • 德拉维语 (trv)
    • 阿美语 (ami)
    • 苏里南汤加语 (srn)
    • 桑戈语 (sm)
    • 马达加斯加语 (mad)
    • 阿尔泰语 (alt)
    • 拉特加莱语 (ltg)
    • 切罗基语 (chr)
    • 茨瓦纳语 (tn)
    • 齐切瓦语 (ny)
    • 塞茨瓦纳语 (st)
    • 皮特凯恩-诺福克语 (pih)
    • 哥特语 (got)
    • 罗马尼亚语 (rmy)
    • 埃维语 (ee)
    • 尼日利亚皮钦语 (pcm)
    • 班巴拉语 (bm)
    • 斯瓦蒂语 (ss)
    • 加泰罗尼亚语 (gpe)
    • 特松加语 (ts)
    • 文达语 (ve)
    • 卡真语 (kcg)
    • 夏延语 (chy)
    • 隆迪语 (rn)
    • 查莫罗语 (ch)
    • 古尔语 (gur)
    • 依努庇克语 (ik)
    • 阿迪格语 (ady)
    • 法顿语 (fat)
    • 希腊语 (pnt)
    • 瓦尤语 (guc)
    • 因纽特语 (iu)
    • 帕劳语 (pwn)
    • 桑戈语 (sg)
    • 丁卡语 (din)
    • 提格里尼亚语 (ti)
    • 格陵兰语 (kl)
    • 宗喀语 (dz)
    • 克里语 (cr)

标签

  • wikidata
  • wikipedia
  • wikification
  • named-entity-linking
  • nel
  • entity-linking
  • el
  • named-entity-disambiguation
  • ned
  • entity-disambiguation
  • ed

配置

  • config_name: ab
    • 数据文件:
      • 分割: train
        • 路径: data/ab/train.parquet
      • 分割: validation
        • 路径: data/ab/validation.parquet
  • config_name: ace
    • 数据文件:
      • 分割: train
        • 路径: data/ace/train.parquet
      • 分割: validation
        • 路径: data/ace/validation.parquet
  • config_name: ady
    • 数据文件:
      • 分割: train
        • 路径: data/ady/train.parquet
      • 分割: validation
        • 路径: data/ady/validation.parquet
  • config_name: af
    • 数据文件:
      • 分割: train
        • 路径: data/af/train.parquet
      • 分割: validation
        • 路径: data/af/validation.parquet
  • config_name: als
    • 数据文件:
      • 分割: train
        • 路径: data/als/train.parquet
      • 分割: validation
        • 路径: data/als/validation.parquet
  • config_name: alt
    • 数据文件:
      • 分割: train
        • 路径: data/alt/train.parquet
      • 分割: validation
        • 路径: data/alt/validation.parquet
  • config_name: am
    • 数据文件:
      • 分割: train
        • 路径: data/am/train.parquet
      • 分割: validation
        • 路径: data/am/validation.parquet
  • config_name: ami
    • 数据文件:
      • 分割: train
        • 路径: data/ami/train.parquet
      • 分割: validation
        • 路径: data/ami/validation.parquet
  • config_name: an
    • 数据文件:
      • 分割: train
        • 路径: data/an/train.parquet
      • 分割: validation
        • 路径: data/an/validation.parquet
  • **config
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作