five

CHIME

收藏
arXiv2025-10-01 更新2025-10-04 收录
下载链接:
https://gengbaike.cn
下载链接
链接失效反馈
官方服务:
资源简介:
CHIME数据集是一个包含广泛使用的简化中文短语式表情包的集合,每个表情包都标注了详细的元数据,包括其含义、来源、示例用法等。该数据集旨在评估大型语言模型对网络表情包的理解能力,并为计算表情包理解的研究提供资源。数据集包含1458条表情包,涵盖了不同的语言复杂性和文化深度,例如现象、引用、修辞手法、谐音、俚语和缩写等。每个表情包都经过人工标注,以确保数据集的质量和安全性。CHIME数据集可用于评估大型语言模型在解释表情包含义、提供来源和生成示例句子方面的能力,并为计算表情包理解的研究提供资源。

The CHIME dataset is a collection of widely used simplified Chinese phrase-based internet memes, with each entry annotated with detailed metadata including its meaning, origin, example usages, etc. This dataset aims to evaluate the ability of large language models (LLMs) to understand internet memes, and serves as a resource for research on computational meme understanding. The dataset contains 1,458 meme entries, covering varying degrees of linguistic complexity and cultural depth, such as network phenomena, cultural references, rhetorical devices, homophones, slang, and abbreviations. Each meme has been manually annotated to ensure the quality and safety of the dataset. The CHIME dataset can be used to evaluate the ability of large language models to interpret meme meanings, identify their origins, and generate example sentences, providing a resource for computational meme understanding research.
提供机构:
上海海事大学,上海,中国;洛桑联邦理工学院,洛桑,瑞士;西交利物浦大学,苏州,中国
创建时间:
2025-10-01
搜集汇总
数据集介绍
main_image_url
构建方式
在中文互联网文化研究领域,CHIME数据集的构建采用了系统化的多阶段流程。研究团队首先从梗百科平台采集了2020年至2024年间用户生成的热门网络流行梗解释文本,通过五位具有不同年代背景的互联网活跃用户进行熟悉度筛选,确保收录的1,458个梗具有普遍认知度。随后利用GPT-4o模型自动提取每个梗的核心语义、来源出处和典型用例,并通过严谨的人工审核流程对提取结果进行校验,有效避免了语言模型常见的幻觉现象。最后通过专家标注团队对每个梗进行类型分类和敏感内容标注,建立了包含经验型、引用型、修辞型、谐音型、俗语型和缩写型六大类别的完整标注体系。
使用方法
该数据集为自然语言理解研究提供了多维度的评估框架。在基础应用层面,研究者可通过零样本提示要求模型完成梗的语义解释、来源追溯和用例生成三项核心任务,全面评估模型对中文网络文化的理解深度。在进阶应用层面,精心设计的填空式选择题任务能够检验模型在具体语境中选择恰当网络梗的能力,其中1,268道题目均采用高相似度干扰项设计以增加判别难度。实验表明,为模型提供梗的语义解释能显著提升其选择准确率,这提示研究者可将数据集作为增强模型文化认知的训练资源。此外,数据集的类型标注体系使得研究者能够针对特定类型的网络梗开展专项研究,深入探索语言模型处理不同语言现象的能力差异。
背景与挑战
背景概述
随着大型语言模型在自然语言处理领域的广泛应用,其在理解网络文化现象方面的能力逐渐受到关注。CHIME数据集由上海海事大学、洛桑联邦理工学院及西交利物浦大学的研究团队于2025年联合创建,聚焦中文互联网中基于文本的流行梗文化。该数据集收录了1458个具有代表性的中文网络梗,每个条目均标注了详细语义解释、文化渊源、使用范例及类型分类,旨在系统评估语言模型对具有文化特异性和语言复杂性的网络用语的解析能力。该研究填补了中文网络文化认知计算领域的空白,为探究语言模型的文化理解机制提供了重要基准。
当前挑战
在解决领域问题层面,CHIME揭示了语言模型在解析具有文化深度的网络梗时面临三重挑战:对谐音双关类梗的语义偏移识别困难,对典故引用类梗的溯源准确率偏低,以及跨类型梗的混淆现象频发。在构建过程中,研究团队需应对数据采集与标注的复杂性:网络梗的快速演变特性导致时效性把控困难,人工标注过程中因文化背景差异引发的标注一致性难题,以及基于大模型的信息提取存在幻觉现象而需进行多重验证。此外,谐音梗与缩写梗特有的语言创造性特征,进一步增加了系统化标注的难度。
常用场景
经典使用场景
在自然语言处理领域,CHIME数据集被广泛用于评估大语言模型对中文网络流行梗的理解能力。研究者通过该数据集设计解释生成和多项选择任务,系统测试模型在解析谐音双关、文化引用等复杂语言现象时的表现。这类评估揭示了模型在处理具有文化特定性和快速演变特性的网络用语时的局限性,为改进模型的文化适应能力提供了实证基础。
解决学术问题
该数据集有效解决了大语言模型在非字面语言理解方面的评估难题。通过构建包含六类典型中文网络梗的标注体系,它能够量化模型对文化语境、语言演变和跨模态关联的捕捉能力。其意义在于建立了首个针对中文网络梗的系统性评估基准,推动了计算语言学在文化智能方向的发展,并为构建更具人文关怀的对话系统奠定了理论基础。
实际应用
CHIME数据集在社交平台内容审核、智能客服系统优化等场景中具有重要应用价值。通过分析模型对网络梗的解读准确性,可帮助社交媒体平台更精准地识别文化敏感内容;在智能对话系统中,该数据集能辅助训练模型理解年轻群体的表达方式,提升人机交互的自然度与亲和力。这些应用显著增强了人工智能技术在现实场景中的文化适应性。
数据集最近研究
最新研究方向
在自然语言理解领域,CHIME数据集的推出标志着对中文网络模因系统性研究的重大突破。该数据集聚焦于基于文本的流行模因解释,通过构建包含含义、起源、例句等细粒度标注的评测基准,揭示了大型语言模型在理解文化语境丰富的网络语言时面临的深层挑战。当前研究前沿主要围绕模因类型特异性分析展开,实验表明模型在经验类和俚语类模因上表现较好,而在涉及谐音双关、文化引用的复杂类型中性能显著下降。这一发现推动了针对文化感知计算的新兴研究方向,促使研究者探索如何将动态演变的网络文化特征融入语言模型的训练框架。随着社交平台内容传播速度的持续加快,该数据集为构建具备实时文化适应能力的对话系统提供了关键支撑,同时也为跨语言模因对比研究奠定了重要基础。
相关研究论文
  • 1
    Are Large Language Models Chronically Online Surfers? A Dataset for Chinese Internet Meme Explanation上海海事大学,上海,中国;洛桑联邦理工学院,洛桑,瑞士;西交利物浦大学,苏州,中国 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作