TikTalkCoref

Name: TikTalkCoref
Creator: 苏州大学计算机科学与技术学院人工智能研究所
Published: 2025-04-19 23:15:59
License: 暂无描述

arXiv2025-04-19 更新2025-04-23 收录

下载链接：

http://arxiv.org/abs/2504.14321v1

下载链接

链接失效反馈

官方服务：

资源简介：

TikTalkCoref是一个面向真实世界社交媒体对话的多模态核心ference resolution数据集，由苏州大学计算机科学与技术学院人工智能研究所创建。该数据集从抖音短视频平台收集而来，包含文本对话及其对应的视频评论，并有人工标注的核心ference clusters，涵盖人物提及在文本对话和相应视频帧中的头部区域。数据集旨在促进多模态学习和对话系统中的核心ference resolution研究。

TikTalkCoref is a multimodal coreference resolution dataset targeting real-world social media dialogues, developed by the Artificial Intelligence Institute, School of Computer Science and Technology, Soochow University. Collected from the Douyin short-video platform, this dataset includes textual dialogues and their corresponding video comments, alongside manually annotated coreference clusters, covering the head regions of person mentions in both the textual dialogues and corresponding video frames. This dataset is designed to advance coreference resolution research in multimodal learning and dialogue systems.

提供机构：

苏州大学计算机科学与技术学院人工智能研究所

创建时间：

2025-04-19

搜集汇总

数据集介绍

构建方式

TikTalkCoref数据集的构建基于抖音短视频平台，通过精心筛选高质量对话样本并辅以人工标注，确保数据集的多样性和准确性。研究团队从TikTalk数据集中随机选取4000个样本，经过严格筛选后保留1012个高质量对话，涵盖文本和视频两种模态。标注过程采用独立双标注工作流程，由专家解决不一致问题，确保标注质量。标注内容包括文本中的人物提及及其对应的视频帧中的人物头部区域，形成跨模态共指关系。

特点

TikTalkCoref是首个针对中文社交媒体对话的多模态共指消解数据集，具有丰富的提及类型，包括专有名词、普通名词和代词。数据集包含1012个对话，总视频时长为519.65分钟，标注了1435个共指簇、2179个提及和958个边界框。此外，数据集还包含一个专注于名人领域的子集TikTalkCoref-celeb，进一步增强了数据集的多样性和实用性。与现有数据集相比，TikTalkCoref在真实场景下的社交媒体对话中表现出更高的复杂性和多样性。

使用方法

TikTalkCoref数据集适用于多模态共指消解任务的研究和评估。使用该数据集时，研究人员可以通过文本共指消解模块识别和聚类对话中的人物提及，再通过视觉人物跟踪模块检测和跟踪视频中的人物头部区域，最后通过文本和视觉共指对齐模块建立跨模态共指关系。数据集提供了详细的评估指标，包括MUC、B3、CEAFϕ4和R@K，便于研究人员进行模型性能的全面评估。此外，数据集还支持零样本和微调设置，为多模态共指消解研究提供了灵活的基准测试平台。

背景与挑战

背景概述

TikTalkCoref数据集由苏州大学人工智能研究所的李星宇、龚晨和傅国洪等研究人员于2025年创建，旨在填补中文社交媒体多模态共指消解研究的数据空白。该数据集源自抖音短视频平台，包含短视频及其对应的用户评论对话，并手工标注了文本中的人物提及与视频帧中对应人物头部区域的共指关系。作为首个面向真实场景中文社交媒体对话的多模态共指数据集，TikTalkCoref通过融合文本与视觉模态的共指信息，为多模态内容理解提供了重要研究基础，显著推动了对话系统、情感分析等下游任务的发展。

当前挑战

TikTalkCoref面临的挑战主要体现在两个方面：领域问题方面，多模态共指消解需解决文本与视觉模态间的语义鸿沟，特别是在社交媒体对话中，人物提及常采用代词或昵称，与视觉特征的关联具有高度隐含性；构建过程方面，数据标注需同步处理文本共指链与视频人物区域的跨模态对齐，且短视频内容的非连续性导致人物追踪困难，需结合头部检测与面部识别技术实现准确聚类。此外，社交媒体数据的敏感信息过滤与标注一致性保障也构成显著挑战。

常用场景

经典使用场景

TikTalkCoref数据集在跨模态共指消解研究中具有重要应用价值，尤其在社交媒体短文本与视频内容的多模态对齐任务中表现突出。该数据集通过标注文本中的人物提及及其对应视频帧中的头部区域，为研究者提供了丰富的多模态共指关系实例，成为评估模型在真实场景下跨模态理解能力的黄金标准。

实际应用

在短视频平台智能评论系统、跨模态内容检索等实际应用中，TikTalkCoref数据集支撑了核心技术的研发。基于该数据集训练的模型可精准识别用户评论中的人物指代与视频主体的关联，显著提升了社交媒体的交互体验推荐准确率，并为多模态对话系统的上下文理解提供了重要技术支撑。

衍生相关工作

该数据集已催生多项跨模态共指消解领域的创新研究，包括基于对比学习的文本-视觉对齐模型、融合轨迹预测的跨模态关联方法等。相关衍生工作进一步拓展了数据集在低资源学习、半监督训练等方向的应用边界，形成了一系列发表于ACL、ICCV等顶会的标志性成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集