Danish-Similarity-Dataset

github2021-08-21 更新2024-05-31 收录

下载链接：

https://github.com/kuhumcst/Danish-Similarity-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

丹麦相似性数据集是一个黄金标准资源，用于评估丹麦语词嵌入模型。该数据集包含99个词对，由38个人类评判者根据语义相似性进行评分，评分范围为0到1。

The Danish Similarity Dataset serves as a gold-standard resource for evaluating Danish word embedding models. It comprises 99 word pairs, each rated by 38 human judges based on semantic similarity, with scores ranging from 0 to 1.

创建时间：

2019-09-26

原始信息汇总

数据集概述

数据集名称

Danish-Similarity-Dataset

数据集目的

用于评估丹麦语词嵌入模型的黄金标准资源。

数据集内容

包含99个词对，由38位人类评判者根据语义相似度进行评分，评分范围为0-1。

数据集文件描述

All_sims_da.csv
- 包含所有评判者的非标准化平均相似度分数，以及每位评判者给出的0-6范围内的非标准化分数。
Gold_sims_da.csv
- 包含每个项目的相似度黄金标准，即所有评判者给出的标准化平均相似度分数，范围为0-1。

数据集特点

提供的是相似度测量，而非相关性/关联性评估。

数据集作者

Nina Schneidermann

引用信息

Schneidermann, N., Hvingelby, R. & Pedersen, Bolette Sandford, 2020, Proceedings of the 12th Language Resources and Evaluation Conference, Marseille 2020. pp. 4756-4765

搜集汇总

数据集介绍

构建方式

Danish-Similarity-Dataset的构建基于38位人类评审员对99对丹麦语词汇的语义相似性评分。评审员根据词汇对在语义上的相似程度，按照0-6的尺度进行评分，其中0表示完全不相似，6表示高度相似。最终，数据集通过计算所有评审员的评分均值，并将其归一化至0-1范围，生成了标准化的相似性评分。这一过程确保了数据集的客观性和可靠性，为丹麦语词嵌入模型的评估提供了坚实的基础。

特点

该数据集的核心特点在于其专注于语义相似性而非相关性或关联性。数据集包含两个主要文件：All_sims_da.csv记录了每位评审员的原始评分及非归一化的均值评分，而Gold_sims_da.csv则提供了归一化后的黄金标准评分。这种双重评分机制不仅为研究者提供了丰富的原始数据，还通过归一化处理确保了评分的一致性和可比性，使其成为评估丹麦语词嵌入模型的理想工具。

使用方法

使用Danish-Similarity-Dataset时，研究者可通过Gold_sims_da.csv中的归一化评分直接评估词嵌入模型的性能。该文件中的评分范围为0-1，0表示完全不相似，1表示完全相似。此外，All_sims_da.csv提供了每位评审员的原始评分，便于深入分析评分分布及个体差异。通过对比模型预测的相似性得分与黄金标准评分，研究者能够量化模型的准确性，并进一步优化词嵌入算法。

背景与挑战

背景概述

Danish-Similarity-Dataset是由Nina Schneidermann等人于2020年创建的一个用于评估丹麦语词嵌入模型的黄金标准资源。该数据集由99对单词组成，每对单词的语义相似度由38名人类评委进行评分，评分范围标准化为0到1之间。该数据集的创建旨在为丹麦语自然语言处理领域提供一个可靠的基准，特别是在词嵌入模型的评估方面。其核心研究问题在于如何准确衡量丹麦语词汇之间的语义相似性，而非关联性。该数据集在相关领域的影响力显著，为丹麦语词嵌入模型的开发与优化提供了重要的参考依据。

当前挑战

Danish-Similarity-Dataset所解决的核心领域问题是如何准确评估丹麦语词嵌入模型的语义相似性。这一任务面临的主要挑战在于语义相似性与关联性之间的区分，以及如何确保评分的客观性和一致性。在数据集的构建过程中，研究人员需要克服的挑战包括：如何设计合理的评分标准以确保评委对语义相似性的理解一致；如何处理评委之间的评分差异以生成可靠的黄金标准；以及如何将评分结果标准化以便于模型评估。这些挑战的解决为丹麦语自然语言处理领域提供了重要的方法论支持。

常用场景

经典使用场景

Danish-Similarity-Dataset 主要用于评估丹麦语词嵌入模型的性能。通过提供99对由38名人类评委评分的词汇对，该数据集为研究者提供了一个标准化的基准，用于衡量不同模型在捕捉词汇语义相似性方面的表现。这一数据集特别适用于那些需要精确评估丹麦语自然语言处理工具的研究场景。

衍生相关工作

自Danish-Similarity-Dataset发布以来，已经衍生出多项相关研究。例如，研究者利用该数据集开发了新的丹麦语词嵌入模型，并对其进行了详细的性能评估。此外，该数据集还被用于跨语言词嵌入研究，探索丹麦语与其他语言之间的语义相似性。这些研究不仅推动了丹麦语NLP技术的发展，也为其他语言的词嵌入研究提供了新的思路。

数据集最近研究