Japanese Word Similarity Dataset

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/tmu-nlp/JapaneseWordSimilarityDataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们构建了一个包含罕见词汇的日语词汇相似性数据集，针对动词、形容词、名词和副词。数据集的构建遵循了斯坦福罕见词汇相似性数据集（RW）的方法，通过众包服务招募了10位标注者为词汇对分配11级相似度评分。

We have constructed a Japanese vocabulary similarity dataset encompassing rare words, focusing on verbs, adjectives, nouns, and adverbs. The dataset was developed following the methodology of the Stanford Rare Word (RW) similarity dataset, utilizing a crowdsourcing service to recruit 10 annotators who assigned 11-point similarity ratings to word pairs.

创建时间：

2016-01-08

原始信息汇总

数据集概述

数据集名称

Japanese Word Similarity Dataset

数据集内容

包含日语中的动词、形容词、名词和副词的相似度数据，特别包括罕见词汇。

数据集构建方法

遵循Stanford Rare Word Similarity Dataset (RW) 构建方法。
从Kodaira et al. (2016)的评估数据集中提取日语动词和形容词对。
通过Lancers平台招募10名标注者，为词汇对分配11级相似度评分（0-10）。

数据集样本结构

字段包括：word1, word2, mean(remove_extreme_annotator), sub1至sub10, mean。
mean(remove_extreme_annotator)：去除极端值后的标注者评分平均值。
mean：所有标注者评分的平均值。
sub*：每位标注者的评分。

辅助工具

src目录包含计算Spearman秩相关系数的辅助脚本，用于计算词汇对相似度与标注评分平均值之间的相关性。

许可证

数据集遵循Creative Commons Attribution-ShareAlike 3.0 Unported (CC BY-SA 3.0)许可证。

引用信息

使用本数据集时，请引用LREC 2018会议论文：

Yuya Sakaizawa and Mamoru Komachi. Construction of a Japanese Word Similarity Dataset. In 11th edition of the Language Resources and Evaluation Conference (LREC 2018), pp.948-951. May 2018.
Yuya Sakaizawa and Mamoru Komachi. Construction of a Japanese Word Similarity Dataset. In arXiv e-prints, 1703.05916 (5 pages). March 2017.

搜集汇总

数据集介绍

构建方式

该数据集的构建遵循了Stanford Rare Word Similarity Dataset（RW）的方法，由Luong等人于2013年提出。研究团队从Kodaira等人在2016年创建的日本词汇简化评估数据集中提取了动词（包括sahen动词）和形容词（包括i-adjective和na-adjective）的词对。通过使用众包服务Lancers招募了10名标注者，为每对词汇分配了11个级别的相似度评分，评分范围从0（最不相似）到10（最相似）。此外，为了确保数据的可靠性，研究团队在计算平均相似度时移除了极端值的标注。

特点

该数据集的一个显著特点是其涵盖了稀有词汇，并且针对动词、形容词、名词和副词进行了细致的分类。通过众包方式获取的相似度评分，不仅提供了每对词汇的平均相似度，还保留了每个标注者的具体评分，从而为研究者提供了多维度的分析可能性。此外，数据集中的词对来源于日本词汇简化评估数据集，确保了词汇的多样性和实用性。

使用方法

该数据集可用于评估和训练日本语词汇相似度模型。研究者可以通过计算Spearman's rank correlation coefficient来评估模型的性能，具体方法是通过学习日本维基百科的词向量，计算词对相似度与标注平均分之间的相关性。数据集的结构清晰，包含词对、标注者的评分以及去除极端值后的平均分，便于直接导入模型进行训练或评估。

背景与挑战

背景概述

日本语词汇相似度数据集（Japanese Word Similarity Dataset）由东京都立大学的Yuya Sakaizawa和Mamoru Komachi于2017年提出，并在2018年的第11届语言资源与评估会议（LREC 2018）上进一步发表。该数据集旨在解决日语词汇相似度评估的问题，涵盖动词、形容词、名词和副词等多种词性，特别是稀有词汇的相似度评估。数据集的构建基于Stanford Rare Word Similarity Dataset（RW），并借鉴了Kodaira等人在2016年提出的日语词汇简化评估数据集。通过众包平台Lancers招募的10名标注者为词汇对分配了11个级别的相似度评分，从而形成了这一数据集。该数据集的发布对日语自然语言处理领域具有重要意义，尤其是在词汇相似度计算和语义分析方面。

当前挑战

日本语词汇相似度数据集在构建过程中面临多项挑战。首先，稀有词汇的相似度评估本身就是一个复杂的任务，因为这些词汇在语料库中的出现频率较低，难以通过传统方法进行有效分析。其次，数据集的构建依赖于众包平台，如何确保标注者的一致性和评分的可靠性是一个关键问题。此外，去除极端值以获得更准确的平均相似度评分，也是数据处理中的一个难点。最后，尽管该数据集在日语词汇相似度评估方面具有重要价值，但其应用范围和方法仍需进一步验证和扩展，特别是在与其他语言的词汇相似度数据集进行跨语言比较时，可能面临更多的挑战。

常用场景

经典使用场景

Japanese Word Similarity Dataset 主要用于评估和改进日语词汇的相似性模型。该数据集通过收集大量日语动词、形容词、名词和副词的相似性评分，为研究者提供了一个标准化的基准，用于测试和比较不同词向量模型在日语语境下的表现。通过计算词对之间的相似度，研究者可以评估模型的准确性和鲁棒性，从而优化现有的自然语言处理技术。

解决学术问题

该数据集解决了日语词汇相似性评估中的关键学术问题，特别是在处理罕见词汇和不同词性（如动词、形容词等）时的挑战。通过提供一个包含罕见词汇的相似性评分数据集，研究者能够更全面地评估词向量模型的性能，尤其是在处理低频词汇时的表现。这不仅有助于提升日语自然语言处理模型的准确性，还为跨语言相似性研究提供了宝贵的资源。

衍生相关工作

基于 Japanese Word Similarity Dataset，研究者们开发了多种日语词向量模型，并进行了广泛的实验和评估。例如，一些研究通过结合该数据集与其他语言的相似性数据集，探索了跨语言词向量模型的构建方法。此外，该数据集还激发了关于罕见词汇处理和多词性词汇相似性评估的新研究，推动了日语自然语言处理领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集