cyanic-selkie/wikianc
收藏Hugging Face2023-09-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cyanic-selkie/wikianc
下载链接
链接失效反馈官方服务:
资源简介:
WikiAnc数据集是一个多语言资源,支持多种语言,主要用于词分类任务。该数据集通过机器生成和众包两种方式创建,涵盖了与维基数据、维基百科、维基化、命名实体链接、实体链接、命名实体消歧和实体消歧相关的任务。数据集的配置部分列出了各种语言特定的训练和验证数据文件。
提供机构:
cyanic-selkie
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-sa-4.0
- 名称: WikiAnc
- 标注创建者:
- 机器生成
- 众包
- 语言创建者:
- 机器生成
- 众包
- 任务类别:
- 标记分类
- 多语言性: 多语言
- 支持语言:
- 英语 (en)
- 宿务语 (ceb)
- 德语 (de)
- 瑞典语 (sv)
- 法语 (fr)
- 荷兰语 (nl)
- 俄语 (ru)
- 西班牙语 (es)
- 意大利语 (it)
- 阿拉伯语 (arz)
- 波兰语 (pl)
- 日语 (ja)
- 中文 (zh)
- 越南语 (vi)
- 乌克兰语 (uk)
- 瓦瑞语 (war)
- 阿拉伯语 (ar)
- 葡萄牙语 (pt)
- 波斯语 (fa)
- 加泰罗尼亚语 (ca)
- 塞尔维亚语 (sr)
- 印度尼西亚语 (id)
- 韩语 (ko)
- 挪威语 (no)
- 车臣语 (ce)
- 芬兰语 (fi)
- 捷克语 (cs)
- 土耳其语 (tr)
- 匈牙利语 (hu)
- 鞑靼语 (tt)
- 塞尔维亚-克罗地亚语 (sh)
- 罗马尼亚语 (ro)
- 巴斯克语 (eu)
- 马来语 (ms)
- 世界语 (eo)
- 希伯来语 (he)
- 亚美尼亚语 (hy)
- 丹麦语 (da)
- 保加利亚语 (bg)
- 威尔士语 (cy)
- 斯洛伐克语 (sk)
- 阿塞拜疆语 (azb)
- 乌兹别克语 (uz)
- 爱沙尼亚语 (et)
- 白俄罗斯语 (be)
- 哈萨克语 (kk)
- 米南佳保语 (min)
- 希腊语 (el)
- 克罗地亚语 (hr)
- 立陶宛语 (lt)
- 加利西亚语 (gl)
- 阿塞拜疆语 (az)
- 乌尔都语 (ur)
- 斯洛文尼亚语 (sl)
- 伦巴第语 (lld)
- 格鲁吉亚语 (ka)
- 新挪威语 (nn)
- 印地语 (hi)
- 泰语 (th)
- 泰米尔语 (ta)
- 孟加拉语 (bn)
- 拉丁语 (la)
- 马其顿语 (mk)
- 阿斯图里亚斯语 (ast)
- 拉脱维亚语 (lv)
- 南非荷兰语 (af)
- 塔吉克语 (tg)
- 缅甸语 (my)
- 马尔加什语 (mg)
- 马拉地语 (mr)
- 阿尔巴尼亚语 (sq)
- 波斯尼亚语 (bs)
- 奥克语 (oc)
- 泰卢固语 (te)
- 马拉雅拉姆语 (ml)
- 低地德语 (nds)
- 布列塔尼语 (br)
- 吉尔吉斯语 (ky)
- 斯瓦希里语 (sw)
- 爪哇语 (jv)
- 伦巴第语 (lmo)
- 尼瓦尔语 (new)
- 旁遮普语 (pnb)
- 威尼斯语 (vec)
- 海地克里奥尔语 (ht)
- 皮埃蒙特语 (pms)
- 巴什基尔语 (ba)
- 卢森堡语 (lb)
- 巽他语 (su)
- 库尔德语 (ku)
- 爱尔兰语 (ga)
- 西里西亚语 (szl)
- 冰岛语 (is)
- 弗里斯兰语 (fy)
- 楚瓦什语 (cv)
- 中库尔德语 (ckb)
- 旁遮普语 (pa)
- 他加禄语 (tl)
- 阿拉贡语 (an)
- 吴语 (wuu)
- 迪维希语 (diq)
- 伊多语 (io)
- 苏格兰语 (sco)
- 沃拉普克语 (vo)
- 约鲁巴语 (yo)
- 尼泊尔语 (ne)
- 国际语 (ia)
- 卡纳达语 (kn)
- 古吉拉特语 (gu)
- 阿尔萨斯语 (als)
- 豪萨语 (ha)
- 科耶-巴萨语 (avk)
- 巴伐利亚语 (bar)
- 克里米亚鞑靼语 (crh)
- 西西里语 (scn)
- 比哈尔语 (bpy)
- 克丘亚语 (qu)
- 蒙古语 (mn)
- 纳瓦霍语 (nv)
- 明格列尔语 (xmf)
- 巴厘语 (ban)
- 僧伽罗语 (si)
- 通布卡语 (tum)
- 普什图语 (ps)
- 伊博语 (ig)
- 北弗里西亚语 (frr)
- 奥塞梯语 (os)
- 马赞德兰语 (mzn)
- 奥里亚语 (or)
- 雅库特语 (sah)
- 闽东语 (cdo)
- 苏格兰盖尔语 (gd)
- 布吉语 (bug)
- 意第绪语 (yi)
- 信德语 (sd)
- 伊洛卡诺语 (ilo)
- 阿姆哈拉语 (am)
- 那不勒斯语 (nap)
- 林堡语 (li)
- 比科尔语 (bcl)
- 法罗语 (fo)
- 哥伦打洛语 (gor)
- 上索布语 (hsb)
- 迈蒂利语 (mai)
- 掸语 (shn)
- 埃米利亚-罗马涅语 (eml)
- 阿塞拜疆语 (ace)
- 梵语 (sa)
- 阿萨姆语 (as)
- 瓦隆语 (wa)
- 国际语 (ie)
- 西阿尔巴尼亚语 (hyw)
- 利古里亚语 (lij)
- 马里语 (mhr)
- 祖鲁语 (zu)
- 绍纳语 (sn)
- 印地语 (hif)
- 巴里语 (mrj)
- 班亚尔语 (bjn)
- 高棉语 (km)
- 曼尼普尔语 (mni)
- 客家语 (hak)
- 邦板牙语 (pam)
- 桑塔利语 (sat)
- 鲁塞尼亚语 (rue)
- 北索托语 (nso)
- 比哈尔语 (bh)
- 索马里语 (so)
- 毛利语 (mi)
- 北萨米语 (se)
- 莫克沙语 (myv)
- 弗拉芒语 (vls)
- 达格语 (dag)
- 苏格兰盖尔语 (sc)
- 科西嘉语 (co)
- 摩洛哥阿拉伯语 (ary)
- 康沃尔语 (kw)
- 藏语 (bo)
- 维普森语 (vep)
- 吉拉克语 (glk)
- 土库曼语 (tk)
- 卡拜尔语 (kab)
- 赣语 (gan)
- 卢旺达语 (rw)
- 阿布哈兹语 (ab)
- 马恩语 (gv)
- 维吾尔语 (ug)
- 纳瓦特尔语 (nah)
- 泽兰语 (zea)
- 信德语 (skr)
- 弗留利语 (fur)
- 乌德穆尔特语 (udm)
- 皮卡第语 (pcd)
- 马耳他语 (mt)
- 科米语 (kv)
- 卡舒比语 (csb)
- 瓜拉尼语 (gn)
- 伊纳里萨米语 (smn)
- 艾马拉语 (ay)
- 诺曼语 (nrm)
- 卡拉恰伊-巴尔卡尔语 (ks)
- 列兹金语 (lez)
- 新共同语言 (lfn)
- 奥洛维茨语 (olo)
- 米兰德斯语 (mwl)
- 老挝语 (lo)
- 中萨米语 (stq)
- 古英语 (ang)
- 莫尔多瓦语 (mdf)
- 罗曼什语 (rm)
- 拉迪诺语 (lad)
- 卡拉卡尔帕克语 (kaa)
- 孔卡尼语 (gom)
- 埃斯特雷马杜拉语 (ext)
- 科米-彼尔米亚克语 (koi)
- 图瓦语 (tyv)
- 帕皮阿门托语 (pap)
- 阿瓦尔语 (av)
- 下索布语 (dsb)
- 林加拉语 (ln)
- 迪格里语 (dty)
- 特威语 (tw)
- 迪维希语 (dv)
- 科隆语 (ksh)
- 壮语 (za)
- 加告兹语 (gag)
- 布里亚特语 (bxr)
- 普法尔茨语 (pfl)
- 隆达语 (lg)
- 松兹瓦尔语 (szy)
- 邦阿西楠语 (pag)
- 布拉克语 (blk)
- 比哈尔语 (pi)
- 泰雅语 (tay)
- 夏威夷语 (haw)
- 阿瓦德语 (awa)
- 印古什语 (inh)
- 卡拉恰伊-巴尔卡尔语 (krc)
- 卡尔梅克语 (xal)
- 宾夕法尼亚德语 (pdc)
- 汤加语 (to)
- 阿提卡姆语 (atj)
- 图卢语 (tcy)
- 亚拉姆语 (arc)
- 孟语 (mnw)
- 希尔哈语 (shi)
- 牙买加克里奥尔语 (jam)
- 基皮亚语 (kbp)
- 沃洛夫语 (wo)
- 昂加语 (anp)
- 卡巴尔达语 (kbd)
- 尼亚斯语 (nia)
- 奥罗莫语 (om)
- 诺维亚语 (nov)
- 基库尤语 (ki)
- 恩古尼语 (nqo)
- 比斯拉马语 (bi)
- 科萨语 (xh)
- 托克皮辛语 (tpi)
- 富拉语 (ff)
- 德顿语 (tet)
- 逻辑语 (jbo)
- 斐济语 (fj)
- 刚果语 (kg)
- 列兹金语 (lbe)
- 蒂格尼亚语 (ty)
- 古教会斯拉夫语 (cu)
- 古吉拉特语 (guw)
- 德拉维语 (trv)
- 阿美语 (ami)
- 苏里南汤加语 (srn)
- 桑戈语 (sm)
- 马达加斯加语 (mad)
- 阿尔泰语 (alt)
- 拉特加莱语 (ltg)
- 切罗基语 (chr)
- 茨瓦纳语 (tn)
- 齐切瓦语 (ny)
- 塞茨瓦纳语 (st)
- 皮特凯恩-诺福克语 (pih)
- 哥特语 (got)
- 罗马尼亚语 (rmy)
- 埃维语 (ee)
- 尼日利亚皮钦语 (pcm)
- 班巴拉语 (bm)
- 斯瓦蒂语 (ss)
- 加泰罗尼亚语 (gpe)
- 特松加语 (ts)
- 文达语 (ve)
- 卡真语 (kcg)
- 夏延语 (chy)
- 隆迪语 (rn)
- 查莫罗语 (ch)
- 古尔语 (gur)
- 依努庇克语 (ik)
- 阿迪格语 (ady)
- 法顿语 (fat)
- 希腊语 (pnt)
- 瓦尤语 (guc)
- 因纽特语 (iu)
- 帕劳语 (pwn)
- 桑戈语 (sg)
- 丁卡语 (din)
- 提格里尼亚语 (ti)
- 格陵兰语 (kl)
- 宗喀语 (dz)
- 克里语 (cr)
标签
- wikidata
- wikipedia
- wikification
- named-entity-linking
- nel
- entity-linking
- el
- named-entity-disambiguation
- ned
- entity-disambiguation
- ed
配置
- config_name: ab
- 数据文件:
- 分割: train
- 路径: data/ab/train.parquet
- 分割: validation
- 路径: data/ab/validation.parquet
- 分割: train
- 数据文件:
- config_name: ace
- 数据文件:
- 分割: train
- 路径: data/ace/train.parquet
- 分割: validation
- 路径: data/ace/validation.parquet
- 分割: train
- 数据文件:
- config_name: ady
- 数据文件:
- 分割: train
- 路径: data/ady/train.parquet
- 分割: validation
- 路径: data/ady/validation.parquet
- 分割: train
- 数据文件:
- config_name: af
- 数据文件:
- 分割: train
- 路径: data/af/train.parquet
- 分割: validation
- 路径: data/af/validation.parquet
- 分割: train
- 数据文件:
- config_name: als
- 数据文件:
- 分割: train
- 路径: data/als/train.parquet
- 分割: validation
- 路径: data/als/validation.parquet
- 分割: train
- 数据文件:
- config_name: alt
- 数据文件:
- 分割: train
- 路径: data/alt/train.parquet
- 分割: validation
- 路径: data/alt/validation.parquet
- 分割: train
- 数据文件:
- config_name: am
- 数据文件:
- 分割: train
- 路径: data/am/train.parquet
- 分割: validation
- 路径: data/am/validation.parquet
- 分割: train
- 数据文件:
- config_name: ami
- 数据文件:
- 分割: train
- 路径: data/ami/train.parquet
- 分割: validation
- 路径: data/ami/validation.parquet
- 分割: train
- 数据文件:
- config_name: an
- 数据文件:
- 分割: train
- 路径: data/an/train.parquet
- 分割: validation
- 路径: data/an/validation.parquet
- 分割: train
- 数据文件:
- **config



