five

Kotowaza — Japanese Proverbs Dataset

收藏
github2026-02-16 更新2026-02-24 收录
下载链接:
https://github.com/sepTN/kotowaza
下载链接
链接失效反馈
官方服务:
资源简介:
Kotowaza是一个结构化的、生产级的日本谚语数据集,包含双语含义、JLPT级别、例句、主题标签和跨语言等价物。它专为开发人员、教育工作者、语言学家和需要干净、可搜索的日本谚语数据库API或JSON数据集的语言应用程序设计。

Kotowaza is a structured, production-grade Japanese proverb dataset that contains bilingual meanings, JLPT levels, example sentences, topic tags, and cross-linguistic equivalents. It is designed specifically for developers, educators, linguists, and language applications that require a clean, searchable Japanese proverb database API or JSON dataset.
创建时间:
2026-02-16
原始信息汇总

Kotowaza — 日语谚语数据集概述

数据集基本信息

  • 名称:Kotowaza — Japanese Proverbs Dataset
  • 描述:一个结构化的、生产级的日语谚语数据集,包含双语含义、JLPT等级、例句、主题标签和跨语言等效谚语。
  • 用途:专为需要干净、可搜索的日语谚语数据库API或JSON数据集的开发者、教育工作者、语言学家和语言应用程序设计。
  • 生产应用:该数据集为印度尼西亚综合日语学习平台 Jepang.org 上的 Kamus Peribahasa Jepang 提供支持。

核心特性

  • 双语含义:每个条目包含印尼语英语解释。
  • 完整注音:包含平假名读音、罗马字和原始汉字。
  • 例句:包含实际用例,提供日语、罗马字和印尼语翻译。
  • 主题标签:按主题分类(动物、生活、金钱、人际关系等)。
  • JLPT等级:条目标有JLPT N5–N1难度等级。
  • 相关谚语:交叉引用相似或相关的谚语。
  • 等效谚语:提供印尼语和英语中的匹配谚语。
  • 零依赖:纯JSON数据,附带轻量级查询辅助函数。
  • 内置搜索:可即时在所有文本字段中搜索。

数据模式

每个条目遵循以下JSON结构: jsonc { "id": "条目URL别名", "japanese": "原始日语(汉字)", "reading": "平假名读音", "romaji": "罗马字读音", "literal": "字面翻译", "meaning": { "id": "印尼语含义", "en": "英语含义" }, "tags": ["英文主题标签"], "tags_id": ["印尼语主题标签"], "jlpt": "JLPT等级", "equivalent": { "id": "印尼语等效谚语", "en": "英语等效谚语" }, "examples": [{ "ja": "日语句子", "romaji": "罗马字句子", "id": "印尼语翻译" }], "related": ["相关谚语ID"] }

可用主题标签

数据集使用以下主题类别: animalslifestrategymoneybusinessrelationshipsmotivationpatiencewarningssocialculturephilosophykarmanumbersefficiencyfood

安装与使用

  • 安装方式npm install kotowaza
  • 主要API方法
    • all():返回所有条目。
    • get(id):通过ID获取单个条目。
    • search(query):跨日语文本、罗马字和含义进行搜索。
    • byTag(tag):按英文主题标签过滤条目。
    • byTagId(tag):按印尼语主题标签过滤条目。
    • byJlpt(level):按JLPT等级过滤条目。
    • random():返回一个随机条目。
    • count():返回条目总数。
    • tags():返回所有唯一的英文标签。
    • tagsId():返回所有唯一的印尼语标签。
    • jlptLevels():返回数据集中存在的所有JLPT等级。
    • url(id):生成指向Jepang.org上条目完整文章的URL。

应用场景

  • 日语学习应用(测验、抽认卡、学习应用)
  • “每日名言”功能
  • 聊天机器人
  • 移动应用(支持离线、零依赖的JSON数据集)
  • NLP研究(用于语言分析的双语谚语语料库)
  • 游戏(文化知识问答或教育游戏内容)

相关信息

搜集汇总
数据集介绍
main_image_url
构建方式
在日语语言学与跨文化研究领域,谚语作为承载文化智慧与语言特色的重要载体,其系统化整理对于语言教学与计算语言学应用具有显著价值。Kotowaza数据集的构建采用了结构化的数据采集与标注流程,从权威的日语学习平台Jepang.org中系统整合了600余条日本谚语。每条谚语均经过多维度标注,涵盖日文原文、假名读音、罗马字转写,并提供了印尼语与英语的双语释义。此外,数据集还融入了例句、主题标签、日语能力考试(JLPT)等级及跨语言等效谚语等丰富元数据,通过严格的模式校验确保数据的一致性与完整性。
特点
该数据集的核心特点在于其多语言、多维度与生产就绪的设计理念。每条谚语条目不仅包含完整的日文表达与读音信息,更提供了印尼语和英语的双语文化释义,有效支持跨语言理解与应用。数据集通过主题标签(如动物、生活、商业等)和JLPT等级对内容进行精细分类,便于按需检索与过滤。其内置的搜索、筛选及随机获取等辅助函数,使得开发者能够轻松地将谚语数据集成到各类应用程序中,无需额外依赖即可实现高效查询与内容展示。
使用方法
在应用层面,该数据集为开发者提供了简洁的JavaScript API,支持通过NPM包直接安装与调用。用户可通过`all()`获取全部条目,或使用`get()`根据ID查询特定谚语。内置的`search()`函数支持跨日文、罗马字及释义字段的全文检索,而`byTag()`、`byJlpt()`等方法则允许按主题或语言能力等级进行筛选。数据集适用于构建日语学习应用中的每日名言、JLPT备考闪卡、聊天机器人知识库,乃至静态网站生成等多样化场景,其纯JSON格式与零依赖特性确保了在各类技术栈中的易用性与灵活性。
背景与挑战
背景概述
在语言学习与自然语言处理领域,谚语作为文化载体与语言习得的重要资源,其系统化整理对于跨文化理解与教育应用具有显著价值。Kotowaza — Japanese Proverbs Dataset 由印度尼西亚日语学习平台 Jepang.org 的维护者 Septian Ganendra S. K. 创建,旨在构建一个结构化、多语言标注的日本谚语数据库。该数据集针对现有谚语资源常存在的完整性不足、单语局限与结构松散等问题,提供了包含双语释义、日语能力考试(JLPT)等级、例句及主题标签的规范化语料。其核心研究问题聚焦于如何通过高质量的数据架构,支持日语教学应用、文化研究及自然语言处理任务的开发,从而促进语言学习技术的实用化与资源可及性。
当前挑战
该数据集致力于解决日语谚语在语言学习与计算语言学应用中的资源匮乏与标准化挑战。具体而言,其构建过程面临多语言对齐的复杂性,需确保日语原文与印尼语、英语释义在文化内涵上的准确对应;同时,谚语的分类与标签体系需要兼顾语言学标准与教育实用性,例如依据 JLPT 等级进行难度划分。此外,数据收集需克服谚语来源分散、释义不统一的困难,并通过结构化架构实现程序化查询与集成,以支持教育工具、聊天机器人及研究平台的开发需求。
常用场景
经典使用场景
在日语语言学习与跨文化研究领域,Kotowaza数据集为学者和教育者提供了一个结构化的日本谚语资源库。该数据集通过双语释义、JLPT等级标注和主题分类,支持构建智能化的语言学习应用,例如自动生成每日谚语卡片或按难度分级的学习模块,使学习者能够系统性地掌握蕴含文化智慧的日语表达。
衍生相关工作
围绕该数据集衍生的经典工作包括基于JLPT等级的自适应学习系统、跨语言谚语等价性研究,以及结合主题标签的文化语义网络分析。这些工作进一步拓展了谚语在自然语言处理中的应用,如构建文化感知的聊天机器人或开发多语言谚语对齐算法,推动了语言资源在教育和人工智能领域的融合创新。
数据集最近研究
最新研究方向
在自然语言处理与跨文化语言学领域,Kotowaza数据集凭借其结构化、多语言标注的特性,正推动着谚语智能解析与教育技术的前沿探索。当前研究聚焦于利用该数据集的双语释义与主题标签,开发自适应语言学习系统,通过算法动态匹配学习者的JLPT水平与文化背景,实现个性化谚语教学。同时,结合自然语言生成技术,该数据集支持构建具有文化感知能力的对话机器人,能够在跨语言交流中恰当地引用谚语,增强交互的人文深度。此外,在计算语言学层面,学者们正借助其丰富的语义关联网络,探究日语谚语与印尼语、英语对应表达之间的概念映射规律,为低资源语言的隐喻理解模型提供关键语料支撑。这些研究方向不仅丰富了数字人文的实践范畴,也为全球化背景下的语言教育创新注入了新的活力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作