Fanchuan

github2025-02-26 更新2025-02-24 收录

下载链接：

https://github.com/Lisaaa1017/Fanchuan

下载链接

链接失效反馈

官方服务：

资源简介：

Fanchuan是一个多语种和图结构化的基准数据集，用于模仿检测和分析。该数据集包含了14,758个标注用户和21,927个标注评论，还包括回复和构建的用户互动图，以提供更丰富的上下文信息。

Fanchuan is a multilingual and graph-structured benchmark dataset for impersonation detection and analysis. It contains 14,758 annotated users and 21,927 annotated comments, as well as replies and constructed user interaction graphs to provide richer contextual information.

创建时间：

2025-02-24

原始信息汇总

FanChuan数据集概述

数据集简介

名称：Fanchuan: A Multilingual and Graph-Structured Benchmark For Parody Detection and Analysis
论文链接：https://arxiv.org/abs/2502.16503
研究领域：社交媒体模仿（parody）检测与分析
语言：英语和汉语
规模：14,758个标注用户和21,927个标注评论
特点：
- 多语言（中英文）
- 图结构数据（包含用户互动关系）
- 提供评论回复等上下文信息

数据集构成

数据集名称	背景描述	示例（中英对照）
Alibaba-Math	职业学校学生在阿里巴巴数学竞赛中表现优异引发争议	"这位同学有实力！阿里巴巴有眼光！..." <br> "This student has strength! Alibaba has vision!..."
BridePrice	中国彩礼传统的争议	"是的是的，姐妹们千万别乱嫁人..." <br> "Ladies, never marry recklessly..."
DrinkWater	科技创作者提出的昂贵但低效的"喝水挑战"系统	"震古烁今，足以开启第五次技术革命。" <br> "A groundbreaking innovation..."
CS2	CS2世界锦标赛中G2战队连续第八次输给NAVI引发的讨论	"传奇捕虾人终结了G2的三日王朝。" <br> "The legendary shrimp catcher..."
CampusLife	大学论坛关于宿舍生活和管理的讨论	"Jealous?" <br> "Every computer on campus..."
Tiktok-Trump	一位女性特朗普支持者在辩论中失利后受到的批评	"She did a great job bringing up solid points."
Reddit-Trump	特朗普的言论风格被批评者模仿	"Hes been tested—more than anyone..."

研究任务

模仿（parody）检测
带有模仿的评论情感分析
带有模仿的用户情感分析

实验发现

所有模型在模仿相关任务上仍面临挑战
上下文信息起关键作用
某些场景下传统句子嵌入方法+简单分类器可超越先进LLM（如DeepSeek-R1和GPT-3）

搜集汇总

数据集介绍

构建方式

Fanchuan数据集的构建，源于对社会媒体上模仿角色或立场相反的讽刺现象的观察。研究者从英语和中文语料中构建了七个讽刺数据集，共包含14,758个标注用户和21,927个标注评论。为了提供充分的上下文信息，研究者还收集了回复并构建了用户互动图，以丰富情境信息。这些数据集的构建旨在为讽刺检测、带有讽刺的评论情感分析和带有讽刺的用户情感分析等关键任务提供测试平台。

特点

Fanchuan数据集的特点在于其多语言和图形结构。它不仅包含了丰富的上下文信息，如用户互动图，而且覆盖了多种主题和情境，使得数据集具有极高的多样性和复杂性。此外，该数据集针对传统方法和大型语言模型进行了广泛的实验，揭示了情境信息在讽刺相关任务中的重要性，并指出讽刺现象对大型语言模型构成了显著挑战。

使用方法

使用Fanchuan数据集，首先需要安装必要的Python环境，然后下载并放置数据集文件夹。数据集的使用包括对传统方法和大型语言模型的讽刺检测和情感分类任务进行测试。具体操作包括输入API密钥、选择任务提示、更改文档，以及使用预训练的嵌入方法进行嵌入生成和模型比较。

背景与挑战

背景概述

Fanchuan数据集是一个多语言和图结构化的基准，旨在用于讽刺检测与分析。该数据集由英文和中文语料库构建而成，共包含7个讽刺数据集，涵盖14,758个标注用户和21,927个标注评论。该数据集由相关领域的研究人员构建于近年来，以应对社交媒体上日益兴起的讽刺现象。通过收集回复并构建用户互动图，该数据集提供了丰富的上下文信息。研究人员通过该数据集对传统方法和大型语言模型进行了三项关键任务的测试，包括讽刺检测、带讽刺的评论情感分析以及带讽刺的用户情感分析。该数据集的研究成果对相关领域产生了重要影响，为讽刺内容的研究提供了宝贵的数据资源。

当前挑战

Fanchuan数据集面临的挑战主要涉及两个方面：一是讽刺相关任务的解决，这对所有模型来说都是一项挑战，因为上下文信息在讽刺内容的识别中扮演了关键角色；二是数据集构建过程中的挑战，这包括对相关网络现象和讽刺手法的理解，以及对复杂社会议题的深入洞察。特别是在构建数据集时，标注者需要熟悉相关网络讨论和讽刺模因，同时还要具备对高级数学概念的理解能力。此外，对于不熟悉CS2游戏背景的人来说，识别该数据集中的讽刺评论尤其困难。

常用场景

经典使用场景

在当前社交媒体环境中，讽刺与模仿现象日渐增多，对此现象的研究显得尤为重要。Fanchuan数据集正是为了应对这一挑战而构建的。该数据集通过收集英语和中文语料库中的讽刺评论，构建了用户互动图，提供了丰富的上下文信息，以支持三项关键任务：讽刺检测、带有讽刺的评论情感分析和带有讽刺的用户情感分析。这些任务构成了该数据集的经典使用场景，为研究者和开发者提供了一个综合性的评估平台。

解决学术问题

Fanchuan数据集解决了讽刺文本识别和情感分析中的诸多学术研究问题，如模型对上下文信息的理解和处理能力。它揭示了即使是先进的大型语言模型在处理讽刺相关任务时仍然面临挑战，这对于改进模型设计和提高其准确性和鲁棒性具有重要意义。此外，该数据集还帮助研究者深入理解社交媒体中讽刺现象的复杂性和多样性。

衍生相关工作

基于Fanchuan数据集，已经衍生出一系列相关工作，包括对传统句子嵌入方法和大型语言模型在讽刺检测任务上的性能比较研究，以及针对特定领域如教育、婚姻、游戏等构建的子数据集。这些衍生工作进一步扩展了Fanchuan数据集的应用范围，促进了相关领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集