five

izhx/mewsli-x

收藏
Hugging Face2024-02-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/izhx/mewsli-x
下载链接
链接失效反馈
官方服务:
资源简介:
Mewsli-X是一个多语言数据集,包含出现在WikiNews和Wikipedia文章中的实体提及,这些提及已自动链接到WikiData条目。数据集的主要用途是评估在XTREME-R基准套件的零样本跨语言设置中的迁移学习。数据集包含多个语言的wikinews_mentions开发集和测试集,以及50种语言的候选实体集和用于微调模型的英文wikipedia_pairs。

Mewsli-X是一个多语言数据集,包含出现在WikiNews和Wikipedia文章中的实体提及,这些提及已自动链接到WikiData条目。数据集的主要用途是评估在XTREME-R基准套件的零样本跨语言设置中的迁移学习。数据集包含多个语言的wikinews_mentions开发集和测试集,以及50种语言的候选实体集和用于微调模型的英文wikipedia_pairs。
提供机构:
izhx
原始信息汇总

Mewsli-X 数据集概述

基本信息

  • 语言: 支持多种语言,包括 af, ar, az, bg, bn, de, el, en, es, et, eu, fa, fi, fr, gu, he, hi, ht, hu, id, it, ja, jv, ka, kk, ko, lt, ml, mr, ms, my, nl, pa, pl, pt, qu, ro, ru, sw, ta, te, th, tl, tr, uk, ur, vi, wo, yo, zh。
  • 许可证: Apache-2.0
  • 数据集名称: Mewsli-X
  • 任务类别: 文本检索
  • 任务ID: 实体链接检索

数据配置

  • wikipedia_pairs:

    • 训练集: wikipedia_pairs/train.jsonl.tar.gz
    • 验证集: wikipedia_pairs/dev.jsonl.tar.gz
  • 多语言配置:

    • ar:
      • 验证集: wikinews_mentions/ar/dev.jsonl
      • 测试集: wikinews_mentions/ar/test.jsonl
    • de:
      • 验证集: wikinews_mentions/de/dev.jsonl
      • 测试集: wikinews_mentions/de/test.jsonl
    • en:
      • 验证集: wikinews_mentions/en/dev.jsonl
      • 测试集: wikinews_mentions/en/test.jsonl
    • es:
      • 验证集: wikinews_mentions/es/dev.jsonl
      • 测试集: wikinews_mentions/es/test.jsonl
    • fa:
      • 验证集: wikinews_mentions/fa/dev.jsonl
      • 测试集: wikinews_mentions/fa/test.jsonl
    • ja:
      • 验证集: wikinews_mentions/ja/dev.jsonl
      • 测试集: wikinews_mentions/ja/test.jsonl
    • pl:
      • 验证集: wikinews_mentions/pl/dev.jsonl
      • 测试集: wikinews_mentions/pl/test.jsonl
    • ro:
      • 验证集: wikinews_mentions/ro/dev.jsonl
      • 测试集: wikinews_mentions/ro/test.jsonl
    • ta:
      • 验证集: wikinews_mentions/ta/dev.jsonl
      • 测试集: wikinews_mentions/ta/test.jsonl
    • tr:
      • 验证集: wikinews_mentions/tr/dev.jsonl
      • 测试集: wikinews_mentions/tr/test.jsonl
    • uk:
      • 验证集: wikinews_mentions/uk/dev.jsonl
      • 测试集: wikinews_mentions/uk/test.jsonl
  • candidate_entities:

    • 测试集: candidate_entities.jsonl.tar.gz

数据规模

  • 大小类别: 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作