古汉语词义标注语料库

github2023-06-01 更新2024-05-31 收录

下载链接：

https://github.com/iris2hu/ancient_chinese_sense_annotation

下载链接

链接失效反馈

官方服务：

资源简介：

古汉语以单音节词为主，其一词多义现象十分突出，这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别，本研究基于传统辞书和语料库反映的语言事实，设计了针对古汉语多义词的词义划分原则，并对常用古汉语单音节词进行词义级别的知识整理，据此对包含多义词的语料开展词义标注。现阶段语料库共涉及315个单音节词，包含5.8万条标注数据。

Ancient Chinese is predominantly characterized by monosyllabic words, with a notable prevalence of polysemy, which poses certain challenges for modern readers in comprehending classical texts. To better facilitate the analysis and discrimination of meanings in ancient Chinese, this study, based on linguistic facts reflected in traditional lexicons and corpora, has designed principles for the semantic division of polysemous words in ancient Chinese. It has also organized knowledge at the semantic level for commonly used ancient Chinese monosyllabic words, thereby enabling semantic annotation of corpora containing polysemous words. The current corpus involves 315 monosyllabic words, encompassing 58,000 annotated data entries.

创建时间：

2021-06-03

原始信息汇总

数据集概述

数据集名称

古汉语词义标注语料库 Ancient Chinese Corpus with Word Sense Annotation

数据集描述

本数据集旨在解决古汉语中单音节词多义现象的挑战，通过设计针对古汉语多义词的词义划分原则，对常用古汉语单音节词进行词义级别的知识整理，并开展词义标注。数据集共涉及315个单音节词，包含5.8万条标注数据。标注语料来源于“语料库在线”古代汉语语料库(国家语委语料库)和CCL古代汉语语料库，均为简体。

项目特色

义项划分兼顾概括性、时代性和涵盖性：结合《王力古汉语字典》和《汉语大字典》构建基础词义知识库，有效应对古汉语词义描写的时间跨度和复杂性。
兼顾同形词的独立性：通过特殊标注区分同形词，如“后1”、“后2”。
对专有名词的特殊标记：为专有名词单独设立义项编号，如人名s0-1、地名s0-2等。

语料库字段介绍

义项表：包含词语id、词形、义项_id、读音、词性、义项描述、王力义族、示例和频次。
语料库：包含词语id、词形、义项描述、语料和义项_id。

实验代码

tensorflow版：使用bert_service进行词义标注实验，涉及开启服务、获取向量和实验执行。
pytorch版：简化版的实验代码，同样包括获取向量和实验执行。

引用

数据集的构建及应用研究已在2021年的中国计算语言学大会上发表，详细信息可参考相关论文。

搜集汇总

数据集介绍

构建方式

古汉语词义标注语料库的构建基于传统辞书和语料库反映的语言事实，设计了针对古汉语多义词的词义划分原则。研究团队对常用古汉语单音节词进行词义级别的知识整理，并对包含多义词的语料开展词义标注。语料来源于“语料库在线”古代汉语语料库和CCL古代汉语语料库，通过平衡采样语料所属时代，确保语料的多样性和代表性。现阶段语料库共涉及315个单音节词，包含5.8万条标注数据。

使用方法

使用该语料库时，用户可以通过实验代码进行词义标注实验。实验代码提供了tensorflow和pytorch两个版本，用户可以根据需求选择合适的版本。实验过程中，用户可以通过调整阈值来控制实验的精度，实验结果将生成统计信息和标注结果文件。此外，用户还可以利用语料库中的义项表和语料库字段进行详细的词义分析和研究。

背景与挑战

背景概述

古汉语词义标注语料库是由北京师范大学中文信息处理研究所主持，得到国家自然科学基金青年项目资助的一项重要研究。该数据集创建于2021年，旨在解决古汉语中单音节词的多义性问题，这一问题对现代人理解古文含义构成了显著挑战。通过结合传统辞书和语料库的语言事实，研究团队设计了针对古汉语多义词的词义划分原则，并对常用古汉语单音节词进行了词义级别的知识整理。该语料库包含315个单音节词和5.8万条标注数据，来源于国家语委语料库和CCL古代汉语语料库，对语料所属时代进行了平衡采样。这一研究不仅丰富了古代汉语领域的语言资源，还为词义消歧技术提供了重要支持，推动了语言本体研究和词典编撰的发展。

当前挑战

古汉语词义标注语料库在构建和应用过程中面临多重挑战。首先，古汉语词汇的多义性和历时演变特性使得词义划分极为复杂，需兼顾概括性、时代性和涵盖性。其次，同形词的处理也是一个难点，特别是在汉字简化的背景下，如何准确区分不同词形及其义项成为一大挑战。此外，专有名词的标注问题也不容忽视，传统辞书往往未收录这些用法，但其使用频次却相当可观，需单独设立义项编号以支持后续研究。在技术层面，尽管基于BERT语言模型的词义判别算法准确率已达到80%左右，但如何进一步提升算法性能，尤其是在处理低频词和罕见义项时，仍需进一步探索。这些挑战不仅考验着研究团队的语言学功底，也对自然语言处理技术提出了更高要求。

常用场景

经典使用场景

古汉语词义标注语料库在学术研究中主要用于古汉语词义的自动标注与消歧。研究者利用该数据集，结合BERT等预训练语言模型，对古汉语文本中的多义词进行精确的词义判别。通过这种方式，研究者能够更准确地理解古文中的词义变化，进而推动古汉语语言学研究的深入发展。

解决学术问题

该数据集有效解决了古汉语一词多义现象带来的词义判别难题。通过构建基于传统辞书和语料库的词义划分原则，研究者能够对古汉语单音节词进行系统化的词义标注。这不仅为古汉语词义的历时演变分析提供了数据支持，还为词典编纂和语言本体研究提供了重要的参考依据。

实际应用

在实际应用中，古汉语词义标注语料库被广泛应用于古籍数字化、智能古籍整理系统以及古汉语教学辅助工具的开发中。通过该数据集，开发者能够构建更精准的古汉语词义识别模型，从而提升古籍文本的自动标注效率和准确性，为古籍资源的智能化利用提供了技术支持。

数据集最近研究