five

myanmar_idioms_lexicon

收藏
Hugging Face2026-01-05 更新2026-01-06 收录
下载链接:
https://huggingface.co/datasets/freococo/myanmar_idioms_lexicon
下载链接
链接失效反馈
官方服务:
资源简介:
**缅甸习语词典**是一个高质量、语言学丰富的传统缅甸习语(**ဆိုရိုးစကား**)集合。虽然谚语(စကားပုံ)通常作为隐喻的道德寓言,但缅甸习语(ဆိုရိုးစကား)是描述社会规范、生物观察和历史智慧的传统说法。该数据集为NLP研究人员、语言学习者和文化历史学家提供了全面的资源,为那些难以通过字面翻译理解的表达提供了深层背景。 ### 主要特点 * **双注册缅甸语:** 每个习语都包括**书面(文学)**和**口语(口语化)**的解释,以弥合缅甸语双言现象的差距。 * **上下文叙述:** 每个条目都有一个5-10段的英文和缅甸语说明性故事,展示习语在现实生活中的应用。 * **词汇分解:** 详细的逐字分析,包括词性(POS)和英文注释。 * **语义元数据:** 标签包括语气、语域和文化主题(如因果报应、自然、社会行为)。 ## 数据集统计(版本1) * **总条目数:** 208个习语(V1) * **平均复杂度:** 每个条目约1800+字符。 * **目标增长:** 该数据集设计为迭代更新(V2、V3等),随着更多传统说法的数字化和丰富。
创建时间:
2026-01-04
原始信息汇总

缅甸习语词典数据集概述

数据集基本信息

  • 数据集名称: Myanmar Idioms Lexicon (မြန်မာဆိုရိုးစကား)
  • 创建者: freococo
  • 发布日期: 2026年
  • 许可证: CC0 1.0
  • 语言: 缅甸语 (my)、英语 (en)
  • 标签: idioms, burmese, myanmar, culture, language, nlp, idiomatic-expressions, lexicon, linguistics

数据集描述

该数据集是一个高质量、语言丰富的缅甸传统习语(ဆိုရိုးစကား)集合。缅甸习语是描述社会规范、生物观察和历史智慧的传统说法。

关键特性

  • 双记录缅甸语: 每个习语包含书面语和口语解释。
  • 上下文叙事: 每个条目包含5-10段英文和缅甸语的说明性故事。
  • 词汇分解: 详细的逐词分析,包括词性和英文注释。
  • 语义元数据: 包含语气、语域和文化主题的标签。

数据集统计

  • 总条目数: 208个习语 (版本1)
  • 平均复杂度: 每个条目约1800+字符
  • 目标增长: 设计为迭代更新

数据集结构

数据集采用分层JSON格式。

数据字段

  • id: 四位数字零填充字符串标识符。
  • idiom:
    • original: 缅甸语原始习语文本。
  • meaning:
    • my:
      • written: 缅甸语正式书面解释。
      • spoken: 缅甸语自然口语解释。
    • en: 习语含义和用法的英文解释。
  • story:
    • emotional:
      • en: 英文长篇叙事上下文。
      • my: 缅甸语长篇叙事上下文。
  • lexical:
    • idiom: 用于词汇分解的句子。
    • translation_en: 字面英文翻译。
    • transliteration: 罗马化缅甸语文本。
    • word_split_mode: 词语分割的粒度。
    • words: 包含wordglosspos的对象列表。
    • metadata:
      • registerpolitenesstonesemanticsspeech_act
      • note: 包含文化、历史或语言学备注。

数据集创建

  • 核心文本来源: mmproverbs.pro
  • 原始材料: Dr. Win Thein 的传统收藏。
  • AI增强: 使用 ChatGPT (o1/5.0系列)Google Gemini Pro 3.0 生成/验证详细叙述和语言元数据。

使用方式

python from datasets import load_dataset dataset = load_dataset("freococo/myanmar_idioms_lexicon")

重要警告与伦理声明

此数据集包含历史记载的包含“ကုလား” (Kalar/Kular) 一词的习语。

  1. 强烈谴责: 数据集创建者明确谴责种族主义、仇外心理以及对任何族裔或宗教群体的非人化行为。
  2. 种族灭绝背景: 我们深知该术语在罗兴亚种族灭绝背景下的敏感性。
  3. 严格非认可: 这些习语出现在词典中绝不构成对此类语言的认可、正常化或接受。
  4. 禁止正常化: 这些条目不得在未经明确谴责和严格语境化的情况下,在当代言语或AI模型输出中重复使用或正常化。

法律免责声明与责任限制

用户自行承担使用风险。

  • 无责任: 创建者和来源贡献者承担零法律责任
  • 仅限研究使用: 这是一个用于学术和技术分析的词汇库。
  • 用户责任: 用户有责任确保其数据使用符合关于仇恨言论和种族歧视的当地和国际法律。

引用

bibtex @misc{myanmar_idioms_lexicon_2026, author = {freococo}, title = {Myanmar Idioms Lexicon: A Multilingual Contextual Resource}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/freococo/myanmar_idioms_lexicon} }

搜集汇总
数据集介绍
main_image_url
构建方式
缅甸习语词典的构建植根于对缅甸语言文化遗产的系统性数字化保存。该数据集以温登博士编纂的传统习语集为核心原始材料,通过现代自然语言处理技术进行深度语义增强。构建过程融合了人工智能辅助生成与人工校验,利用ChatGPT与Google Gemini Pro等先进模型为每条习语生成了详尽的叙事语境和语言学元数据,最终形成结构化的分层JSON格式,确保了数据的学术严谨性与机器可读性。
特点
本数据集的核心特征在于其多层次的语言学与文化注释体系。每条习语条目不仅提供原始缅文文本,还细致区分了书面语与口语两种语体的释义,有效弥合了缅甸语言中存在的双言现象。数据集进一步为每个习语配备了长达五至十段的情景叙事,以英缅双语呈现其实际应用场景,并辅以详尽的词汇分解与语义元数据标注,如语域、情感色彩和文化主题标签,从而构建了一个深度语境化的语言资源。
使用方法
研究人员可通过Hugging Face的`datasets`库便捷加载此数据集,进行跨语言理解、文化计算或仇恨言论检测等领域的探索。在具体应用中,应优先关注数据集提供的丰富叙事语境与元数据,将其作为检索增强生成或模型微调的高质量背景知识源。使用者必须严格遵守数据集附带的伦理警告,仅将其用于批判性语言学记录与学术研究,避免任何可能导致有害语言正常化的不当使用。
背景与挑战
背景概述
缅甸习语词典数据集由研究者freococo于2026年创建,其核心文本源自Win Thein博士的传统收藏。该数据集旨在系统性地收录与阐释缅甸传统习语(ဆိုရိုးစကား),这些习语承载着丰富的社会规范、自然观察与历史智慧,是缅甸语言文化的重要载体。作为一项高质量的语言学资源,它不仅为自然语言处理研究提供了深层语境支持,亦为语言学习者与文化历史学者架设了理解缅甸文化内涵的桥梁,对低资源语言的文化计算与跨语言理解研究具有显著的推动作用。
当前挑战
该数据集所针对的领域核心挑战在于低资源语言文化表达的精准理解与跨语言迁移,缅甸习语蕴含深厚的文化隐喻与社会语境,其非字面含义使得机器翻译与语义分析面临巨大困难。在构建过程中,研究者需克服双重语言变体(书面语与口语)的准确对齐、长篇叙事语境的生成与验证,以及涉及种族歧视性历史术语的伦理处理等多重挑战,确保数据在学术研究用途中的严谨性与社会责任。
常用场景
解决学术问题
该数据集主要应对低资源语言文化计算中的语义鸿沟挑战。通过提供详尽的词汇拆分、语用标签和双语叙事语境,它使计算语言学能够系统化研究缅甸语习语的结构特征与语用功能。这为语言类型学比较、数字人文领域的文化模式分析,以及多语言大语言模型的文化对齐训练提供了实证基础,推动了语言技术向文化敏感性的范式转变。
衍生相关工作
基于该数据集衍生的经典研究聚焦于多模态文化计算。学者们利用其叙事语境开发了缅甸语隐喻识别模型,并扩展至情感计算领域,分析习语中蕴含的社会价值观。在数字人文方面,该资源催生了缅甸民间智慧的知识图谱构建项目,通过链接历史语义标签,可视化文化概念的演变轨迹,为人类学研究提供了量化工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作