JiraiBench

Name: JiraiBench
Creator: 卡内基梅隆大学, 华盛顿大学, 香港理工大学, 东京大学
Published: 2025-03-30 22:02:48
License: 暂无描述

arXiv2025-03-30 更新2025-04-03 收录

下载链接：

http://arxiv.org/abs/2503.21679v2

下载链接

链接失效反馈

官方服务：

资源简介：

JiraiBench数据集是由卡内基梅隆大学、华盛顿大学、香港理工大学和东京大学合作构建的一组双语文本数据集，包含10419条中文微博帖子和5000条日文推特帖子。该数据集专注于检测大型语言模型在检测自我毁灭行为内容方面的有效性，涵盖药物过量、饮食失调和自残三种行为类别。数据集通过关键词搜索和专家构建的词汇表收集相关帖子，并通过三层标注框架进行注释，以提供关于自我毁灭行为的细致颗粒度的信息，适用于多语言内容审查和文化敏感的检测系统开发。

JiraiBench is a bilingual text dataset co-constructed by Carnegie Mellon University, the University of Washington, The Hong Kong Polytechnic University, and The University of Tokyo. It comprises 10,419 Chinese Weibo posts and 5,000 Japanese Twitter posts. Focused on evaluating the effectiveness of large language models (LLMs) in detecting content related to self-destructive behaviors, this dataset covers three behavioral categories: drug overdose, eating disorders, and self-harm. Relevant posts were collected via keyword searches and expert-curated vocabularies, then annotated through a three-layer annotation framework to provide fine-grained information about self-destructive behaviors. This dataset is suitable for the development of multilingual content moderation and culturally sensitive detection systems.

提供机构：

卡内基梅隆大学, 华盛顿大学, 香港理工大学, 东京大学

创建时间：

2025-03-28

搜集汇总

数据集介绍

构建方式

JiraiBench数据集的构建采用了系统化的方法，首先通过关键词搜索从新浪微博和X平台（原Twitter）收集了10,419条中文帖子和5,000条日文帖子。这些帖子经过严格的清洗流程，去除无关内容和隐私信息。随后，由六名双语标注者（包括母语者和领域专家）按照多维标注框架进行独立标注，涵盖药物滥用（OD）、进食障碍（ED）和自残/自杀倾向（SH）三个行为类别，每个类别采用三级标注体系（0：无关；1：第一人称表达；2：第三方描述）。标注一致性通过Cohen's Kappa和Fleiss' Kappa验证，平均系数均超过0.68，确保了数据的高可靠性。

特点

JiraiBench作为首个专注于跨国Jirai亚文化的双语基准数据集，其核心特点体现在三个方面：跨语言覆盖性（中/日双语平行语料）、行为多维度标注（OD/ED/SH三类独立标注）以及文化语境敏感性。数据分布显示中文社区的第一人称行为表达比例显著高于日文社区（如OD相关帖中文占30.55% vs 日文3.82%），反映了文化差异在自我表露行为中的影响。数据集特别捕捉了Jirai亚文化特有的隐喻表达和编码语言，如中文的'濒死感'与日文的'アムカ'（抗生素滥用隐语），为模型理解文化特异性表达提供了珍贵样本。

使用方法

该数据集支持三种主要应用范式：零样本评估中，模型直接接收结构化提示（如'判断是否涉及药物滥用，输出0/1/2'）进行分类；少样本学习则提供2个标注示例增强模型上下文理解；跨语言迁移实验可通过微调实现（如用3,000条中文数据微调Qwen2.5模型后评估日文数据表现）。研究显示，日文指令提示在中文内容检测中意外优于中文提示（F1提升约3.2%），建议用户优先尝试文化邻近的指令语言。使用时需注意遵循伦理规范，数据需向认证学术机构申请获取。

背景与挑战

背景概述

JiraiBench是由卡内基梅隆大学、华盛顿大学、香港理工大学和东京大学的研究团队于2025年推出的首个双语基准测试数据集，专注于评估大语言模型在中日社交媒体中检测人类自毁行为内容的能力。该数据集针对跨国'地雷系'网络亚文化现象，收录了10,419条中文微博和5,000条日文推文，通过三维标注体系（药物滥用、进食障碍、自残行为）构建了全面的评估框架。作为心理健康与自然语言处理交叉领域的重要资源，JiraiBench填补了非英语自毁行为检测研究的空白，其创新的跨文化迁移发现为多语言内容审核系统提供了新的理论基础。

当前挑战

JiraiBench面临的核心挑战体现在两个维度：在领域问题层面，需解决跨国亚文化社区特有的编码语言识别难题，包括隐喻表达、文化特定术语以及多行为共现现象的检测；在构建过程中，研究团队需克服敏感数据标注的一致性控制、中日双语平行语料的质量平衡，以及保护用户隐私与遵守平台政策的伦理要求。特别值得注意的是，数据集揭示了当处理中文内容时，日文指令提示意外优于中文提示的跨文化迁移现象，这对传统以语言匹配为核心的多语言模型评估范式提出了根本性质疑。

常用场景

经典使用场景

JiraiBench作为首个专注于中日双语社交媒体中自毁行为内容检测的基准数据集，其经典使用场景主要围绕大型语言模型（LLM）的跨文化评估。在心理健康计算语言学领域，该数据集被广泛用于测试模型对药物滥用（OD）、进食障碍（ED）和自残行为（SH）三类敏感内容的识别能力，尤其擅长揭示模型在跨语言场景下的文化迁移现象。研究者通过零样本和少样本实验设计，可系统评估模型对‘地雷系’亚文化群体特有的隐喻表达、编码语言的解析效能。

衍生相关工作

该数据集已衍生出三个方向的经典研究：1）跨文化迁移学习框架JiraiLLM-Qwen，通过中文数据微调实现日语场景的零样本迁移；2）Wendler等人基于该数据集发现的‘中间层概念编码’现象，推进了多语言Transformer的机理可解释性研究；3）Yang等学者构建的‘文化敏感提示工程’方法论，将日语指令优化策略扩展至韩语、泰语等亚洲语言场景。相关成果在ACL、EMNLP等会议形成专题研讨，推动形成了‘文化邻近性优先于语言相似性’的学术共识。

数据集最近研究