elmurod1202/SimRelUz_semantic_evaluation_dataset
收藏Hugging Face2022-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/elmurod1202/SimRelUz_semantic_evaluation_dataset
下载链接
链接失效反馈官方服务:
资源简介:
SimRelUz是一个用于乌兹别克语语义模型评估的数据集,包含超过一千对单词的相似性和相关性评分。这些单词对基于形态特征、出现频率、语义关系精心选择,并由11位不同年龄和性别的乌兹别克语母语者进行标注。数据集包含1418个单词对,涵盖不同词类(名词、动词、形容词)、词形(词根、屈折、派生)、词频(高、中、低、稀有和OOV词)和语义关系(同义词、反义词、部分词、上位词、无关词)。每个单词对都有两个评分:语义相似性和语义相关性。
提供机构:
elmurod1202
原始信息汇总
数据集概述
数据集名称
SimRelUz: Similarity and Relatedness scores as a Semantic Evaluation dataset for Uzbek language
数据集描述
SimRelUz是一个针对乌兹别克语的语义评估数据集,包含超过一千对精心挑选的单词,这些单词基于其形态特征、出现频率、语义关系,并由11位不同年龄和性别的乌兹别克语母语者进行标注。
数据集内容
- 包含1418对单词,涵盖名词、形容词和动词。
- 单词形式包括根形式、屈折形式和派生形式。
- 单词频率分为高、中、低频率,以及罕见和未在词汇表中的单词。
- 语义关系包括同义、反义、部分-整体、上位-下位关系,以及无关。
- 每对单词有两个分数,分别代表语义相似性和语义相关性。
数据集特点
- 所有数据对均由人工标注,确保数据的准确性和可靠性。
- 数据集中的所有字段均已填写,包括未在词汇表中的情况。
数据集用途
- 用于评估乌兹别克语的语义模型。
- 支持开发和测试基于语义相似性和相关性的算法和工具。
数据集可视化
数据集提供了散点图,用于在向量空间中可视化单词对的关系。
数据集构建工具
- 编程语言:Python
- 主要库:scikit-learn, Matplotlib
数据集链接
数据集用户界面
提供了一个基于Web的工具,用于多用户标注语义评估。
数据集统计信息
| 单词类别 | 数量 | 单词形式 | 数量 | 单词频率 | 数量 |
|---|---|---|---|---|---|
| 名词 | 1154 | 根形式 | 995 | 高频率 | 1136 |
| 动词 | 351 | 屈折形式 | 423 | 中频率 | 448 |
| 形容词 | 457 | 派生形式 | 544 | 低频率 & OOV | 378 |
| 独特单词总数:1962 |



