CHIME: CHinese Internet Meme Explanation Dataset
收藏github2025-10-02 更新2025-10-07 收录
下载链接:
https://github.com/yuboxie/chime
下载链接
链接失效反馈资源简介:
CHIME是一个用于评估大语言模型对中文网络梗理解能力的综合数据集,包含来自中文互联网的1,458个基于短语的流行梗,每个梗都标注了详细的元数据,包括含义、来源、例句和梗类型
CHIME is a comprehensive dataset designed to evaluate the ability of Large Language Models (LLMs) to understand Chinese internet memes. It encompasses 1,458 phrase-based popular internet memes collected from Chinese online spaces, with each meme annotated with detailed metadata including its meaning, origin, example sentences, and meme category.
创建时间:
2025-09-16
原始信息汇总
CHIME: 中文网络梗解释数据集
数据集概述
CHIME是一个用于评估大语言模型对中文网络梗理解能力的综合性数据集。该数据集包含来自中文互联网的1,458个流行短语类网络梗,每个梗都标注了详细的元数据,包括含义、来源、例句和梗类型。
关键特征
- 全面覆盖:涵盖6种不同类型的1,458个中文网络梗
- 丰富标注:包含含义、来源、例句、粗俗/冒犯性标签
- 评估框架:提供两个评估LLM梗理解能力的任务
- 文化深度:覆盖语言和文化上具有细微差别的内容
数据集统计
梗类型分布
| 梗类型 | 数量 | 百分比 |
|---|---|---|
| 现象 | 561 | 38.5% |
| 引用 | 438 | 30.0% |
| 修辞 | 214 | 14.7% |
| 谐音 | 133 | 9.1% |
| 俗语 | 60 | 4.1% |
| 缩写 | 52 | 3.6% |
其他统计
- 粗俗内容:75个梗(5.1%)
- 冒犯性内容:127个梗(8.7%)
- 有来源信息的梗:525个梗(36.0%)
数据结构
每个梗条目包含以下字段: json { "meme": "网络梗词", "meaning": "梗词的含义和解释", "origin": "梗词的来源和背景(可能为null)", "examples": ["使用示例1", "使用示例2", "使用示例3"], "profanity": false, "offense": false, "type_cn": "中文分类", "type_en": "English Category" }
字段描述
meme:网络梗词meaning:梗词的含义和用法的详细解释origin:梗词来源的背景信息(可能为空)examples:上下文中的实际使用示例列表profanity:梗是否包含粗俗内容offense:梗是否具有潜在冒犯性type_cn:中文分类type_en:英文分类
评估任务
任务1:梗解释
- 目标:为给定梗生成含义、来源和例句
- 评估:自动指标(余弦相似度、BERTScore、BARTScore)+人工评估
- 发现:模型在处理具有文化细微差别的梗(引用、谐音双关)时表现不佳
任务2:多项选择题
- 目标:在上下文句子中选择最合适的梗填空
- 数据集:1,268道多项选择题,每题5个选项
- 发现:人类表现(88.6%)优于最佳LLM(80.9%)
基准测试结果
解释任务(人工评估 - 同意百分比)
| 模型 | 含义 | 来源 | 例句 |
|---|---|---|---|
| DeepSeek-V3 | 73.6 | 35.4 | 77.4 |
| GLM-4-Plus | 68.5 | 35.9 | 70.7 |
| GPT-4o | 53.9 | 18.5 | 55.0 |
| Claude 3.5 Sonnet | 51.0 | 14.4 | 51.7 |
| Qwen2.5-72B | 45.7 | 14.4 | 46.8 |
| GLM-4-9B | 40.4 | 7.7 | 41.1 |
| Qwen2.5-7B | 33.9 | 9.7 | 34.0 |
多项选择题任务(准确率)
| 模型 | 平均 | 现象 | 引用 | 修辞 | 谐音 | 俗语 | 缩写 |
|---|---|---|---|---|---|---|---|
| DeepSeek-V3 | 80.9 | 83.1 | 79.1 | 82.8 | 71.3 | 85.8 | 83.3 |
| GLM-4-Plus | 76.4 | 78.4 | 74.8 | 81.7 | 64.0 | 80.4 | 79.2 |
| GPT-4o | 73.4 | 77.9 | 70.8 | 76.1 | 54.9 | 85.8 | 75.0 |
| Claude 3.5 Sonnet | 71.8 | 75.8 | 64.4 | 77.8 | 59.7 | 80.0 | 72.9 |
| Qwen2.5-72B | 69.0 | 73.3 | 69.1 | 69.1 | 48.6 | 86.9 | 67.1 |
| GLM-4-9B | 52.6 | 57.4 | 52.7 | 53.6 | 36.0 | 65.4 | 50.4 |
| Qwen2.5-7B | 51.6 | 60.2 | 52.0 | 52.4 | 29.4 | 64.2 | 51.2 |
关键发现
- 性能因梗类型而异:模型在现象和俗语类梗上表现更好,在引用和谐音双关类梗上表现较差
- 来源归因挑战:所有模型在提供准确的梗来源方面都持续表现不佳
- 文化背景重要性:具有文化和语言细微差别的梗带来了重大挑战
- 接受性理解与产出性理解:模型识别适当用法比生成解释更容易
引用
bibtex @article{xie2025chime, title={Are Large Language Models Chronically Online Surfers? A Dataset for Chinese Internet Meme Explanation}, author={Xie, Yubo and Wang, Chenkai and Ma, Zongyang and Miao, Fahui}, journal={arXiv preprint arXiv:2510.00567}, year={2025} }
伦理考量
- 数据集包含一些可能具有冒犯性或不适当的内容,已明确标注用于研究目的
- 所有个人可识别信息均已匿名化处理
- 鼓励负责任地使用此数据集,以推进AI系统中的文化理解
许可证
本项目采用MIT许可证
联系方式
- 谢宇博(通讯作者):yuboxie@hotmail.com
AI搜集汇总
数据集介绍

构建方式
在中文网络文化研究领域,CHIME数据集的构建采用了系统化采集与标注流程。研究团队从梗百科等权威来源筛选出1458个具有代表性的网络流行梗词,覆盖现象、引用、修辞、谐音、俗语和缩写六大类别。每个条目经过专业标注人员细致处理,包含含义解析、起源背景、使用示例等结构化信息,同时标注了粗俗内容与冒犯性标签,确保数据质量与伦理规范。
特点
该数据集展现出鲜明的文化语言学特征,其核心价值在于对中文网络亚文化的深度覆盖。不仅囊括了38.5%的现象类梗词和30%的引用类内容,更特别关注到14.7%的修辞手法与9.1%的谐音双关等语言现象。数据集通过525条起源追溯和127条冒犯性内容标注,构建了兼具广度和深度的文化语义图谱,为理解网络语言的演化规律提供了珍贵样本。
使用方法
在自然语言处理应用中,该数据集支持双轨评估范式。研究者可通过梗词解释任务检验模型的文化语义生成能力,运用余弦相似度与BERTScore等指标进行量化评估;同时配备1268道多选题组成的完形填空任务,通过上下文匹配验证模型对梗词语用场景的把握。这种评估框架既能检测模型的表层理解,又能深入探究其文化认知能力。
背景与挑战
背景概述
在人工智能与自然语言处理领域,理解网络文化中的语言现象已成为一项重要研究课题。CHIME数据集由上海海事大学、洛桑联邦理工学院及西交利物浦大学的研究团队于2025年共同创建,旨在系统评估大语言模型对中文网络梗的解读能力。该数据集收录了1,458个涵盖现象、引用、修辞等六类流行梗词,通过详尽的语义标注与来源追溯,为探究模型在跨文化语境下的认知局限提供了重要基准。
当前挑战
中文网络梗的解析面临双重挑战:在领域问题层面,模型需克服文化背景的深层隔阂,尤其对谐音双关、典故引用等依赖特定社会语境的内容难以准确捕捉;在构建过程中,团队需平衡梗词的时代性与代表性,同时处理涉及粗俗、冒犯性内容的伦理标注,确保数据集的学术价值与社会责任并重。
常用场景
经典使用场景
在自然语言处理领域,CHIME数据集为评估大语言模型对中文网络梗文化的理解能力提供了基准测试平台。该数据集通过涵盖现象、引用、修辞等六类共1458个网络流行梗,系统构建了包含语义解析、溯源考证及语境应用的评估框架,有效支撑模型在跨文化语境下的语义推理与知识关联研究。
实际应用
在现实应用层面,CHIME数据集为社交平台内容审核、跨文化交际辅助系统及智能客服等场景提供了文化认知支持。通过精准识别网络梗词的情感倾向与冒犯程度,可有效提升人机交互系统对中文网络亚文化的适应性,助力构建具有文化敏感性的数字沟通桥梁。
衍生相关工作
基于该数据集的研究已衍生出多维度模型评估范式,包括DeepSeek-V3在梗词释义任务中的语义生成优化、GLM-4-Plus在文化溯源任务上的知识检索增强等系列工作。这些研究通过解构语言模型的文化认知机制,持续推动着具身智能与社会计算领域的交叉创新。
以上内容由AI搜集并总结生成



