five

elmurod1202/SimRelUz_semantic_evaluation_dataset

收藏
Hugging Face2022-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/elmurod1202/SimRelUz_semantic_evaluation_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
SimRelUz是一个用于乌兹别克语语义模型评估的数据集,包含超过一千对单词的相似性和相关性评分。这些单词对基于形态特征、出现频率、语义关系精心选择,并由11位不同年龄和性别的乌兹别克语母语者进行标注。数据集包含1418个单词对,涵盖不同词类(名词、动词、形容词)、词形(词根、屈折、派生)、词频(高、中、低、稀有和OOV词)和语义关系(同义词、反义词、部分词、上位词、无关词)。每个单词对都有两个评分:语义相似性和语义相关性。
提供机构:
elmurod1202
原始信息汇总

数据集概述

数据集名称

SimRelUz: Similarity and Relatedness scores as a Semantic Evaluation dataset for Uzbek language

数据集描述

SimRelUz是一个针对乌兹别克语的语义评估数据集,包含超过一千对精心挑选的单词,这些单词基于其形态特征、出现频率、语义关系,并由11位不同年龄和性别的乌兹别克语母语者进行标注。

数据集内容

  • 包含1418对单词,涵盖名词、形容词和动词。
  • 单词形式包括根形式、屈折形式和派生形式。
  • 单词频率分为高、中、低频率,以及罕见和未在词汇表中的单词。
  • 语义关系包括同义、反义、部分-整体、上位-下位关系,以及无关。
  • 每对单词有两个分数,分别代表语义相似性和语义相关性。

数据集特点

  • 所有数据对均由人工标注,确保数据的准确性和可靠性。
  • 数据集中的所有字段均已填写,包括未在词汇表中的情况。

数据集用途

  • 用于评估乌兹别克语的语义模型。
  • 支持开发和测试基于语义相似性和相关性的算法和工具。

数据集可视化

数据集提供了散点图,用于在向量空间中可视化单词对的关系。

数据集构建工具

  • 编程语言:Python
  • 主要库:scikit-learn, Matplotlib

数据集链接

GitHub repo of the project

数据集用户界面

提供了一个基于Web的工具,用于多用户标注语义评估。

数据集统计信息

单词类别 数量 单词形式 数量 单词频率 数量
名词 1154 根形式 995 高频率 1136
动词 351 屈折形式 423 中频率 448
形容词 457 派生形式 544 低频率 & OOV 378
独特单词总数:1962
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作