five

TikTalk|多模态对话数据集|视频分析数据集

收藏
arXiv2023-09-08 更新2024-06-21 收录
多模态对话
视频分析
下载链接:
https://ruc-aimind.github.io/projects/TikTalk/
下载链接
链接失效反馈
资源简介:
TikTalk是由中国人民大学创建的一个视频基础的多模态对话数据集,旨在模拟现实世界中的多模态闲聊场景。该数据集包含从流行的视频分享平台收集的38,703个视频和367,670个用户对话。用户基于观看视频的多模态体验进行自发对话,从而重现真实的闲聊环境。与以往的多模态对话数据集相比,TikTalk中的更丰富的上下文类型导致更多样化的对话,但也增加了从复杂的多模态信息中捕捉人类兴趣以生成个性化响应的难度。此外,外部知识在我们的数据集中更频繁地被唤起。这些事实揭示了多模态对话模型的新挑战。
提供机构:
中国人民大学
创建时间:
2023-01-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
TikTalk数据集通过从中国版抖音(Douyin)平台收集38,703个视频及其对应的评论和回复构建而成。这些视频涵盖了25个不同的主题类别,用户在观看视频后自发进行对话,形成了367,670条对话。为了确保数据质量,研究者通过筛选机制去除了低质量的评论和视频,例如仅有一层评论的视频被排除,同时保留了获得较高点赞数的评论和视频。此外,通过正则表达式清理了评论中的无效内容,如提及其他用户的符号和重复的词语,并将表情符号移至元数据中,以保留对话的纯文本内容。最终,通过将层次化的评论拆分为对话,形成了最终的多模态对话语料库。
特点
TikTalk数据集的显著特点在于其丰富的多模态信息和真实的对话场景。与以往的多模态对话数据集不同,TikTalk不仅包含视觉信息,还涵盖了音频信息和外部知识,这使得对话更加多样化和复杂化。用户在观看视频后基于视觉、听觉和外部知识进行自发对话,模拟了现实世界中的闲聊场景。此外,TikTalk中的对话涉及多种模态的交互,例如视觉和音频信息的结合,以及外部知识的引入,这为多模态对话模型的研究提供了新的挑战。
使用方法
TikTalk数据集可用于训练和评估多模态对话生成模型。研究者可以通过该数据集进行视频驱动的多模态对话任务,旨在生成与视频内容相关的自然语言回复。模型可以利用视频的视觉、音频信息以及外部知识来生成更具相关性和多样性的回复。此外,TikTalk还可以用于评估模型在多模态信息感知、兴趣捕捉和知识引入方面的能力。通过对比不同模型的表现,研究者可以进一步探索如何更好地融合多模态信息,提升对话生成的质量和多样性。
背景与挑战
背景概述
随着多模态信息处理技术的发展,对话机器人逐渐展现出向通用人工智能迈进的潜力。为了推动智能且类人化的多模态对话系统的研究,TikTalk数据集应运而生。该数据集由中国人民大学的多位研究人员共同创建,收集了来自热门视频分享平台的38,000个视频以及用户在这些视频下发布的367,000条对话。TikTalk通过模拟用户在观看视频后基于多模态体验进行的自发对话,重现了真实世界中的闲聊场景。与以往的多模态对话数据集相比,TikTalk提供了更丰富的上下文类型,促进了更多样化的对话,但也增加了从复杂的多模态信息中捕捉人类兴趣并生成个性化回复的难度。此外,该数据集中引入了更多外部知识,揭示了多模态对话模型面临的新挑战。
当前挑战
TikTalk数据集的构建和应用面临多重挑战。首先,数据集需要处理多模态信息的多样性,包括视觉、音频和文本的复杂交互,这要求模型具备感知和理解多模态上下文的能力。其次,捕捉人类兴趣点是一个难题,尤其是在视频场景中,用户可能关注不同的细节,模型需要自动识别并生成相关的回复。最后,引入外部知识是生成高质量回复的关键,但如何有效地整合这些知识仍是一个挑战。此外,数据集的构建过程中,如何从海量视频和评论中筛选出高质量的对话数据,并确保数据的隐私性和多样性,也是一项复杂的工作。
常用场景
经典使用场景
TikTalk数据集的经典使用场景在于其能够模拟真实世界中的多模态闲聊对话。通过收集用户在观看视频后自发进行的对话,TikTalk为研究多模态对话系统提供了丰富的语料。例如,用户在观看一段关于烹饪的视频后,可能会讨论食材的处理方式或烹饪技巧,这些对话不仅涉及视觉信息,还可能引入外部知识或音频信息。这种多模态的交互为生成个性化且自然的对话提供了理想的实验环境。
衍生相关工作
TikTalk数据集的发布催生了一系列相关研究工作。例如,基于该数据集的多模态对话生成任务,研究者们提出了多种模型架构,如结合视觉编码器和语言模型的BLIP-2,以及引入外部知识的Maria模型。这些工作不仅提升了对话生成的多样性和相关性,还为多模态对话系统的进一步发展提供了新的思路。此外,TikTalk还激发了对音频信息在对话生成中作用的研究,推动了多模态信息融合技术的进步。
数据集最近研究
最新研究方向
TikTalk数据集的最新研究方向主要集中在多模态对话系统的开发与优化上。该数据集通过收集来自视频分享平台的38K视频及其对应的367K用户对话,模拟了真实世界中的多模态闲聊场景。研究者们致力于解决多模态对话中的三大挑战:感知和理解多样化的多模态信息及其复杂交互、捕捉用户兴趣以生成个性化响应、以及引入外部知识以补充对话内容。实验结果表明,结合大语言模型(LLM)和知识图谱的模型在生成多样化和相关性强的响应方面表现优异,但现有模型仍无法完全解决所有挑战,尤其是在音频信息的有效利用和复杂推理任务上仍有较大提升空间。未来研究将进一步探索如何更好地融合音频信息、显式捕捉用户兴趣点以及增强模型在多模态对话中的推理能力。
相关研究论文
  • 1
    TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World中国人民大学 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CTooth

CTooth是首个开放源代码的3D牙科CT数据集,包含完整的牙齿标注。该数据集由杭州电子科技大学等机构创建,旨在为计算机辅助牙科诊断和治疗提供支持。数据集包含5504个标注的CBCT图像,来自22名患者,涵盖了牙齿位置、数量、修复、植入物和颌骨大小等结构变异。CTooth数据集的创建过程涉及使用ITKSNAP软件手动标注牙齿区域,并经过精细调整,整个过程耗时约10个月。该数据集主要应用于3D牙齿分割研究,解决手动标注主观性和耗时性的问题。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

IMF International Financial Statistics (IFS)

国际货币基金组织(IMF)的国际金融统计(IFS)数据集提供了全球各国的金融和经济数据,包括货币供应、利率、国际收支、国际储备等。该数据集是研究国际金融和经济趋势的重要资源。

www.imf.org 收录

DFT dataset for high entropy alloys

我们的DFT数据集涵盖了由八种元素组成的bcc和fcc结构,包括所有可能的2至7元合金系统。该数据集在Zenodo上公开可用,包含初始和最终结构、形成能量、原子磁矩和电荷等属性。

github 收录

ACPBench Hard

ACPBench Hard数据集是基于ACPBench构建的,由IBM Research创建。该数据集包含7种不同类型的推理任务,旨在将复杂的计划生成任务分解为独立的原子推理任务,以布尔问题或选择题的形式出现。ACPBench Hard是这些任务的生成版本,要求模型回答开放性问题。数据集适用于评估大型语言模型在自动规划器中作为组件的可靠性,涵盖多种规划领域,以帮助构建更高效的规划模型。

arXiv 收录