SimLex999-Czech, WordSim353 reannotated, WordSim353 and SimLex999 disambiguations

github2023-03-14 更新2024-05-31 收录

下载链接：

https://github.com/kliegr/word_similarity_relatedness_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集用于评估词相似性和相关性，包括SimLex-999和WordSim-353的重新注释版本，以及用于词相似性和相关性基准测试的其他相关数据集。

These datasets are utilized for evaluating word similarity and relatedness, encompassing re-annotated versions of SimLex-999 and WordSim-353, along with other relevant datasets for benchmarking word similarity and relatedness.

创建时间：

2018-07-19

原始信息汇总

数据集概述

数据集名称

Word Similarity and Relatedness Datasets

数据集内容

SimLex999-Czech
- simlex999cs.csv: SimLex-999 word pairs reannotated according to the original SimLex-999 guidelines - CZECH version.
- wordlex999cs.csv: SimLex-999 word pairs reannotated according to the WordSim353 guidelines - CZECH version.
- winlex999cs.csv: SimLex-999 word pairs reannotated according to the word interchangeability guidelines - CZECH version.
WordSim353 reannotated
- wordsim353crowd.csv: WordSim353 word pairs reannotated according to the original WordSim353 guidelines using crowdsourcing.
- win353.csv: WordSim353 word pairs reannotated according to the word interchangeability guidelines.
- explicitsim353.csv: WordSim353 word pairs reannotated dataset according to explicit similarity guidelines.
- win353cs.csv: WordSim353 word pairs reannotated according to the word interchangeability guidelines - CZECH version.
WordSim353 and SimLex999 disambiguations
- searchkeys_automatic_wordsim353.csv: Automatic mappings - WordSim353.
- searchkeys_crowdsourced_wordsim353.csv: Crowdsourced mappings - WordSim353.
- searchkeys_automatic_simlex666.csv: Automatic mappings - SimLex-666.

数据集授权

这些数据集根据Creative Commons Attribution 4.0 International License授权。

数据集来源

SimLex-999: Hill, Felix, Roi Reichart, and Anna Korhonen. "Simlex-999: Evaluating semantic models with (genuine) similarity estimation." Computational Linguistics 41.4 (2015): 665-695.
WordSim-353: Finkelstein, Lev, et al. "Placing search in context: The concept revisited." Proceedings of the 10th international conference on World Wide Web. ACM, 2001.
Czech WordSim-353: Cinková, Silvie. "WordSim353 for Czech." In International Conference on Text, Speech, and Dialogue, pp. 190-197. Springer, Cham, 2016.

搜集汇总

数据集介绍

构建方式

SimLex999-Czech、WordSim353 reannotated以及WordSim353和SimLex999 disambiguations数据集的构建基于对原始SimLex-999和WordSim-353数据集的重新标注和扩展。具体而言，SimLex999-Czech通过遵循原始SimLex-999指南的捷克语版本，对词对进行了重新标注；WordSim353 reannotated则通过众包方式，依据原始WordSim353指南和词汇互换性指南进行了重新标注；而WordSim353和SimLex999 disambiguations则通过自动映射和众包映射的方式，对词对进行了歧义消除处理。

特点

该数据集的特点在于其多语言支持和对词汇相似性与关联性的精细标注。SimLex999-Czech提供了捷克语版本的词对相似性评分，扩展了原始SimLex-999的应用范围；WordSim353 reannotated通过众包和多种标注指南，提供了更为丰富的词汇相似性与关联性数据；而WordSim353和SimLex999 disambiguations则通过自动和众包映射，解决了词对歧义问题，提升了数据集的准确性和实用性。

使用方法

该数据集的使用方法主要包括下载相应的CSV文件，并根据研究需求选择合适的标注版本。SimLex999-Czech适用于捷克语词汇相似性研究；WordSim353 reannotated可用于多语言词汇相似性与关联性分析；而WordSim353和SimLex999 disambiguations则适用于词汇歧义消除任务。用户可通过访问相关网站获取更多详细信息，并依据数据集提供的指南进行数据分析和模型评估。

背景与挑战

背景概述

SimLex999-Czech、WordSim353 reannotated以及WordSim353和SimLex999 disambiguations数据集是由Tomáš Kliegr和Ondřej Zamazal等研究人员在2018年创建的，旨在通过重新标注和扩展已有的SimLex-999和WordSim-353数据集，进一步探索词汇相似性和关联性的评估方法。这些数据集的核心研究问题在于如何更准确地衡量词汇之间的语义相似性，尤其是在不同语言背景下（如捷克语）的表现。该研究不仅推动了语义模型评估的标准化，还为跨语言语义相似性研究提供了重要参考。

当前挑战

该数据集在构建过程中面临多重挑战。首先，词汇相似性的评估本身具有主观性，尤其是在跨语言环境下，如何确保标注的一致性和准确性成为主要难题。其次，重新标注过程中需要遵循不同版本的标注指南（如SimLex-999和WordSim-353的原始指南），这对数据集的统一性和可比性提出了更高要求。此外，自动映射和众包标注的引入虽然提高了效率，但也带来了数据质量控制的复杂性。这些挑战不仅影响了数据集的构建，也对后续的语义模型评估提出了更高的标准。

常用场景

经典使用场景

SimLex999-Czech和WordSim353 reannotated数据集在自然语言处理领域中被广泛用于评估词向量模型和语义相似度算法的性能。这些数据集通过提供经过重新标注的词汇对，帮助研究者更准确地衡量模型在捕捉词汇间语义相似度方面的能力。特别是在捷克语环境下，这些数据集为跨语言语义模型的研究提供了宝贵的资源。

实际应用

在实际应用中，SimLex999-Czech和WordSim353 reannotated数据集被广泛应用于机器翻译、信息检索和问答系统等自然语言处理任务中。通过利用这些数据集，开发者能够优化模型在不同语言环境下的表现，提升跨语言信息处理的准确性和效率。特别是在多语言搜索引擎和智能助手中，这些数据集为语义理解的改进提供了重要支持。

衍生相关工作

基于这些数据集，研究者们开展了多项经典工作，例如在跨语言语义相似度评估、词向量模型的优化以及多语言语义网络的构建等方面。这些工作不仅扩展了数据集的应用范围，还为自然语言处理领域的进一步发展提供了理论支持和实践指导。例如，基于SimLex999-Czech的研究成果已被应用于多语言语义相似度算法的改进，显著提升了模型在低资源语言环境下的表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集