five

通假字资源库

收藏
github2023-09-23 更新2024-05-31 收录
下载链接:
https://github.com/frederick-wang/tongjiazi-resources
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
通假字资源库是一个专为古汉语通假字研究和应用而创建的开源项目。它由通假字标注语料库、通假字知识库以及通假字识别评测集三部分组成。

The Interchangeable Character Resource Repository is an open-source project specifically designed for the research and application of interchangeable characters in ancient Chinese. It comprises three components: an annotated corpus of interchangeable characters, a knowledge base of interchangeable characters, and an evaluation set for the recognition of interchangeable characters.
创建时间:
2023-06-12
原始信息汇总

通假字资源库概述

数据集组成

通假字资源库由以下三部分组成:

  1. 通假字标注语料库:收录11000余条包含通假现象详细标注的语料。
  2. 通假字知识库:以汉字为节点,通假和形声关系为边,从字音、字形、字义多个角度对通假字与正字的属性进行加工,共包含4185个字节点和8350对关联信息。
  3. 通假字识别评测集:面向古汉语信息处理需求,支持通假字检测和正字识别两个子任务的评测,收录评测数据19678条。

数据集内容详细说明

通假字标注语料库

  • 文件格式jsonl
  • 文件corpus.jsonl
  • 字段
    • 语料ID
    • 语料文本
    • 标注位置
    • 通假字字头
    • 正字字头
    • 出处
    • 时代
    • 释义
    • 拼音
    • 注音
    • 古音

通假字知识库

  • 文件格式jsonl
  • 文件
    • nodes.jsonl
    • tongjia_links.jsonl
    • xingsheng_links.jsonl
    • yuliao.jsonl
  • 字段
    • 节点ID
    • 部首
    • 部件
    • 结构
    • 通假关系ID
    • 通假字
    • 正字
    • 拼音
    • 注音
    • 古音
    • 释义
    • 关联语料ID集合
    • 形声关系ID
    • 形声字
    • 声旁
    • 语料ID
    • 语料
    • 出处
    • 时代
    • 来源

通假字识别评测集

  • 文件格式jsonl
  • 文件
    • based_detection.jsonl
    • based_recognition.jsonl
    • extended_detection.jsonl
    • extended_recognition.jsonl
  • 字段
    • input
    • output

数据下载

  • 格式zip
  • 解压密码BEIJING_NORMAL_UNIVERSITY

引用信息

  • 论文:古汉语通假字资源库的构建及应用研究(The Construction and Application of an Ancient Chinese Language Resource on Tongjiazi)
  • 作者:Wang, Zhaoji et al.
  • 会议:22nd Chinese National Conference on Computational Linguistics
  • 年份:2023
  • 页码:535–546
搜集汇总
数据集介绍
main_image_url
构建方式
通假字资源库的构建基于多维度的数据整合与精细化标注,涵盖了通假字标注语料库、通假字知识库以及通假字识别评测集三个主要部分。语料库收录了11000余条详细标注的通假字语料,知识库则通过字音、字形、字义等多角度对通假字与正字的属性进行加工,包含4185个字节点和8350对关联信息。评测集则针对古汉语信息处理需求,支持通假字检测和正字识别两个子任务,收录了19678条评测数据。
特点
该数据集的显著特点在于其多维度的数据结构和精细化的标注体系。语料库不仅提供了通假字的详细标注,还包含了出处、时代、释义等多项信息,为研究者提供了丰富的上下文背景。知识库则通过构建字与字之间的通假和形声关系网络,为通假字的自动识别提供了理论支持。评测集的设计则充分考虑了实际应用需求,支持基础版和拓展版的通假字检测与正字识别任务。
使用方法
使用该数据集时,用户可以通过解压下载的zip文件获取数据,解压密码为‘BEIJING_NORMAL_UNIVERSITY’。数据集分为三个主要部分:通假字标注语料库、通假字知识库和通假字识别评测集。语料库以jsonl格式存储,每行包含详细的通假字信息;知识库则通过多个jsonl文件详细记录了字与字之间的关系;评测集则提供了基础版和拓展版的检测与识别任务数据。用户可以根据研究需求选择相应的数据进行分析和模型训练。
背景与挑战
背景概述
通假字资源库是由赵继王、张世瑞、张学涛和胡仁芬等研究人员于2023年构建的一个专为古汉语通假字研究与应用而设计的开源项目。该资源库旨在解决古籍文本中常见的通假字现象,这一现象不仅增加了理解古文的难度,也是古汉语信息处理中的重要挑战。资源库包含通假字标注语料库、通假字知识库和通假字识别评测集三大部分,分别收录了11000余条详细标注的语料、4185个字节点和8350对关联信息,以及19678条评测数据。该资源库不仅为通假字的人工判别和机器处理提供了支持,还通过基线模型的搭建和试验结果的分析,探讨了通假字自动识别的影响因素与改进方法,进一步推动了古籍整理、人文研究和文言文教学的发展。
当前挑战
通假字资源库在构建过程中面临多项挑战。首先,古汉语通假字现象复杂,涉及字音、字形、字义等多个维度,如何准确标注和分类这些信息是一个技术难题。其次,资源库的构建需要大量的古籍文本数据,数据的获取、清洗和标注工作量巨大,且需要确保数据的准确性和一致性。此外,通假字的自动识别模型需要处理大量的语言变异和上下文依赖问题,模型的训练和优化也是一个持续的挑战。最后,资源库的应用场景广泛,如何在不同的应用环境中有效利用和扩展资源库的功能,也是未来研究的重要方向。
常用场景
经典使用场景
通假字资源库的经典使用场景主要体现在古汉语信息处理领域,尤其是在古籍文本的自动校勘与理解中。通过该资源库,研究者可以利用其丰富的标注语料库和知识库,进行通假字的自动检测与正字识别,从而提升古籍文本的准确性和可读性。此外,该资源库还支持通假字相关的人文研究,如古汉语语音、字形和字义的演变分析,为古汉语教学和研究提供了宝贵的数据支持。
解决学术问题
通假字资源库解决了古汉语研究中长期存在的通假字识别难题,这一问题不仅影响了古籍文本的理解,也制约了古汉语信息处理的发展。通过提供详细的标注语料和多维度的知识库,该资源库为研究者提供了系统化的工具,帮助其深入分析通假字与正字之间的关系,从而推动了古汉语自动识别技术的进步。此外,该资源库的应用还促进了古籍整理、人文研究和文言文教学的现代化,具有重要的学术意义和实际价值。
衍生相关工作
通假字资源库的发布催生了一系列相关的经典工作,尤其是在古汉语信息处理和自然语言处理领域。基于该资源库,研究者开发了多种通假字自动识别模型,并进行了深入的实验分析,探讨了影响通假字识别的关键因素。此外,该资源库还激发了更多关于古汉语语料库构建和知识图谱研究的探索,推动了古汉语信息处理的进一步发展。这些衍生工作不仅丰富了古汉语研究的工具集,也为相关领域的技术进步提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作