five

SaiedAlshahrani/ASAD

收藏
Hugging Face2024-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SaiedAlshahrani/ASAD
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于20个阿拉伯国家,包含它们的首都、国籍、货币和所在大陆的信息,分为四个子集:国家-首都集、国家-货币集、国家-国籍集和国家-大陆集。每个子集包含380个词类比,整个数据集共有1520个词类比。该数据集主要用于评估阿拉伯语词嵌入模型(WEMs)。排除了阿联酋和科摩罗这两个国家,因为它们的名称或首都名称是开放复合词(两个词),无法直接被词嵌入模型处理。
提供机构:
SaiedAlshahrani
原始信息汇总

数据集卡片 for "Arab States Analogy Dataset (ASAD)"

数据集概述

  • 名称: Arab States Analogy Dataset (ASAD)
  • 语言: 阿拉伯语
  • 许可证: MIT
  • 数据集大小: 1K<n<10K
  • 数据集描述: 该数据集包含20个阿拉伯国家及其对应的首都、国籍、货币和所在大陆的信息,分为四个子集:国家-首都集、国家-货币集、国家-国籍集和国家-大陆集。每个子集包含380个单词类比,总计1520个单词类比。该数据集用于评估阿拉伯语词嵌入模型(WEMs)。

数据集详情

  • 子集:
    • 国家-首都集
    • 国家-货币集
    • 国家-国籍集
    • 国家-大陆集
  • 每个子集的单词类比数量: 380
  • 总单词类比数量: 1520

数据集使用

  • 用途: 评估阿拉伯语词嵌入模型(WEMs)

数据集创建说明

  • 排除的国家: 阿联酋和科摩罗,因为它们或其首都的名称是开放复合词(两个单词),无法直接由词嵌入模型处理。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作