SaiedAlshahrani/ASAD
收藏Hugging Face2024-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SaiedAlshahrani/ASAD
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于20个阿拉伯国家,包含它们的首都、国籍、货币和所在大陆的信息,分为四个子集:国家-首都集、国家-货币集、国家-国籍集和国家-大陆集。每个子集包含380个词类比,整个数据集共有1520个词类比。该数据集主要用于评估阿拉伯语词嵌入模型(WEMs)。排除了阿联酋和科摩罗这两个国家,因为它们的名称或首都名称是开放复合词(两个词),无法直接被词嵌入模型处理。
提供机构:
SaiedAlshahrani
原始信息汇总
数据集卡片 for "Arab States Analogy Dataset (ASAD)"
数据集概述
- 名称: Arab States Analogy Dataset (ASAD)
- 语言: 阿拉伯语
- 许可证: MIT
- 数据集大小: 1K<n<10K
- 数据集描述: 该数据集包含20个阿拉伯国家及其对应的首都、国籍、货币和所在大陆的信息,分为四个子集:国家-首都集、国家-货币集、国家-国籍集和国家-大陆集。每个子集包含380个单词类比,总计1520个单词类比。该数据集用于评估阿拉伯语词嵌入模型(WEMs)。
数据集详情
- 子集:
- 国家-首都集
- 国家-货币集
- 国家-国籍集
- 国家-大陆集
- 每个子集的单词类比数量: 380
- 总单词类比数量: 1520
数据集使用
- 用途: 评估阿拉伯语词嵌入模型(WEMs)
数据集创建说明
- 排除的国家: 阿联酋和科摩罗,因为它们或其首都的名称是开放复合词(两个单词),无法直接由词嵌入模型处理。



