FanChuan

Name: FanChuan
Creator: 南洋理工大学, 信息科学与系统中心
Published: 2025-02-23 16:52:46
License: 暂无描述

arXiv2025-02-23 更新2025-02-26 收录

下载链接：

https://github.com/Lisaaa1017/Fanchuan

下载链接

链接失效反馈

官方服务：

资源简介：

FanChuan是一个包含中英两种语言的多语种、图结构化数据集，由南洋理工大学信息科学与系统中心创建。该数据集涵盖了多个主题，共包含21,210条注释和14,755个用户的注释。数据集通过构建用户互动关系异质图来提供丰富的上下文信息。数据集的构建包括数据收集、注释和预处理三个步骤，确保了数据的高多样性、精确注释和丰富的上下文。该数据集用于模仿检测、评论情绪分类和用户情绪分类等三个关键任务，旨在解决社交媒体上模仿内容识别和分析的问题。

FanChuan is a multilingual, graph-structured dataset containing both Chinese and English content, created by the Center for Information Science and Systems at Nanyang Technological University. It covers a wide range of topics, with a total of 21,210 annotated records and annotations from 14,755 distinct users. The dataset provides rich contextual information by constructing a heterogeneous graph of user interaction relationships. The construction of this dataset includes three sequential steps: data collection, annotation, and preprocessing, which ensures high data diversity, accurate annotations, and abundant contextual information. This dataset is applied to three core tasks, namely imitation detection, comment sentiment classification, and user sentiment classification, aiming to address the issues of imitation content recognition and analysis on social media.

提供机构：

南洋理工大学, 信息科学与系统中心

创建时间：

2025-02-23

搜集汇总

数据集介绍

构建方式

FanChuan数据集的构建始于广泛的数据收集，涵盖中英文语料库中的多个话题和社交媒体平台。为了确保数据的多样性，研究者们专注于那些在社交媒体上引发激烈辩论的话题或事件。在数据标注阶段，该数据集由母语者进行标注，以提供准确且符合文化的见解。标注过程包括对评论或用户的情感进行分类，并确定评论是否为戏仿。为了解决标注者之间的分歧，采用多数票决制，并在必要时由专家进行重新评估。数据预处理阶段包括删除无关或敏感内容，并提供三种类型的嵌入：Bag of Words、Skip-gram和RoBERTa。最后，数据被存储为异构图结构，以包含用户和帖子之间的交互关系，从而提供更丰富的上下文信息。

特点

FanChuan数据集的特点在于其高多样性、丰富的上下文信息和精确的标注。它包含来自中英文语料库的七个数据集，共有14,755个标注用户和21,210个标注评论。该数据集使用异构图结构来表示内容和评论之间的关系，这使得研究者能够利用关系信息来加深对戏仿的理解。此外，数据集的标注由母语者进行，并通过专家和大型语言模型（LLMs）进行验证，以确保标注的一致性和可靠性。

使用方法

FanChuan数据集可用于三个关键任务：戏仿检测、带戏仿的评论情感分析和带戏仿的用户情感分析。研究者们在该数据集上测试了传统方法和LLMs的性能。为了评估模型，数据被分为训练集、验证集和测试集，比例为40%/30%/30%。戏仿检测任务被视为二分类问题，使用F1分数进行评估。评论和用户情感分类任务被视为多分类问题，使用Macro-F1分数来衡量模型性能。研究者们测试了五种方法：基于嵌入的方法、基于不一致性的方法、异常检测方法、基于图的方法和LLMs。这些方法在三个戏仿相关任务上的性能被详细比较和分析，以揭示当前模型的局限性和改进方向。

背景与挑战

背景概述

在社交媒体上，模仿他人角色或立场已成为一种新兴现象，这种模仿往往带有幽默、挑衅或争议的成分。尽管检测和分析这种模仿对于理解文化价值观、促进次文化发展和增强自我表达至关重要，但由于当前数据集的可用性有限且多样性不足，这一研究一直受到阻碍。为了弥补这一差距，FanChuan数据集应运而生，它包含了来自英语和中文语料库的七个模仿数据集，共包含14,755个标注用户和21,210条标注评论。该数据集还收集了回复，并构建了用户交互图，以提供更丰富的上下文信息，这在现有数据集中是缺失的。通过这些数据集，研究人员对传统方法和大型语言模型（LLMs）在三个关键任务上进行了测试：模仿检测、带有模仿的评论情感分析和带有模仿的用户情感分析。这些数据集的创建为相关领域的研究提供了宝贵的资源，有助于深入理解文化价值观和数字话语中模仿的作用。

当前挑战

FanChuan数据集面临着一系列挑战。首先，模仿检测任务对所有模型来说都是一项艰巨的挑战，即使是LLMs也无法始终优于传统的基于嵌入的方法。其次，在包含模仿行为的评论上进行情感分类时，模型的性能会显著下降。此外，尽管LLMs在处理自然语言处理任务时具有强大的推理能力和上下文理解能力，但在模仿检测任务中，推理LLMs并未表现出优于非推理LLMs的性能。这些挑战表明，模仿检测和情感分类任务对当前模型来说仍然是困难的，并且LLMs在这些任务上仍存在局限性。

常用场景

经典使用场景

FanChuan数据集被广泛应用于检测和分析社交媒体上的模仿行为，特别是在幽默、挑衅或争议性话题中。该数据集的丰富语境和用户互动图结构为研究人员提供了深入理解模仿行为的背景信息和关系信息。研究人员可以利用该数据集来评估和比较不同的检测和分析方法，包括传统方法和大型语言模型（LLMs），以确定哪种方法在模仿检测和情感分析方面表现最佳。

衍生相关工作

FanChuan数据集的提出和发布激发了相关研究领域的广泛兴趣，并衍生出一系列经典工作。这些研究包括对模仿检测和情感分析任务的深入探索，以及对LLMs在模仿检测任务中的性能评估。此外，FanChuan数据集还推动了图神经网络（GNNs）在模仿检测和情感分析任务中的应用，为相关研究提供了新的思路和方法。

数据集最近研究