five

COSMMIC

收藏
arXiv2025-06-18 更新2025-06-22 收录
下载链接:
https://github.com/AaryanSahu/COSMMIC
下载链接
链接失效反馈
官方服务:
资源简介:
COSMMIC是一个创新的多模态多语言数据集,包含印度九种主要语言的4,959篇文章图像对和24,484条读者评论,所有语言都提供人工撰写的真实摘要。该数据集是印度语言资源领域的先驱,旨在推动NLP研究和促进包容性。它涵盖了Bengali、Hindi、Gujarati、Marathi、Malayalam、Odia、Tamil、Telugu和Kannada等九种主要语言,数据量相较于现有印度语言数据集具有显著优势。

COSMMIC is an innovative multimodal and multilingual dataset that contains 4,959 article-image pairs and 24,484 reader comments across nine major Indian languages, with human-written ground-truth summaries available for all languages. As a pioneering resource in the field of Indian language resources, this dataset aims to advance NLP research and promote inclusivity. It covers nine prominent Indian languages including Bengali, Hindi, Gujarati, Marathi, Malayalam, Odia, Tamil, Telugu, and Kannada, and features a significantly larger scale compared to existing Indian language datasets.
提供机构:
印度理工学院帕特纳分校计算机科学与工程学院
创建时间:
2025-06-18
原始信息汇总

COSMMIC数据集概述

基本信息

  • 全称: Comment-Sensitive Multimodal Multilingual Indian Corpus
  • 类型: 多模态多语言数据集
  • 主要用途: 摘要生成和标题生成
  • 覆盖语言: 9种印度主要语言(孟加拉语、印地语、泰米尔语、泰卢固语、马拉地语、古吉拉特语、卡纳达语、马拉雅拉姆语、奥里亚语)

数据集规模

  • 文章-图像对: 4,959个
  • 用户评论: 24,484条

数据结构

  • 每个语言文件夹包含:
    • Reference Summary: 每篇文章的真实摘要
    • Headline: 每篇文章的真实标题

关键特性

  1. 多模态性: 每篇文章关联一个图像
  2. 评论敏感性: 整合读者评论以增强上下文摘要
  3. 人工标注: 所有语言的文章均有人工标注的摘要和标题

研究贡献

  1. 多语言多模态整合: 统一整合文章文本、图像和用户评论
  2. 评论感知摘要: 使用IndicBERT分类器筛选支持性和无噪声评论
  3. 图像在NLG中的效用: 使用多语言CLIP提取图像的语义信息
  4. 四种配置评估:
    • 仅文章文本
    • 文章+评论
    • 文章+图像
    • 文章+评论+图像
  5. 基准测试: 使用LLama3、GPT-4等先进模型进行标题生成和摘要评估

使用工具

  • IndicBERT: 用于评论分类
  • 多语言CLIP: 用于图像特征提取
  • LLama3、GPT-4: 用于NLG基准测试
  • 自定义指标: 用于评估评论效用和摘要质量

引用信息

bibtex @inproceedings{your2025cosmmic, title={COSMMIC: A Comment-Sensitive Multimodal Multilingual Corpus for Indian Language Summarization}, author={Raghvendra Kumar, Mohammed Salman S A, Aryan Sahu, Tridib Nandi, Pragathi Y P, Sriparna Saha, Jose G Moreno}, booktitle={Proceedings of ACL 2025}, year={2025} }

目标

  • 促进印度多样化语言社区的公平和丰富建模
  • 推动包容性和可访问的人工智能发展
搜集汇总
数据集介绍
main_image_url
构建方式
COSMMIC数据集的构建采用了多模态、多语言的方法,涵盖了九种主要的印度语言。数据来源为DailyHunt平台,通过Selenium工具进行爬取,收集了4,959篇文章-图像对和24,484条读者评论。为确保数据质量,团队进行了手动验证和清理,排除了无关信息。此外,由十名精通多种语言的注释专家生成了多语言的真实摘要,确保了数据集的多样性和准确性。
特点
COSMMIC数据集以其多模态和多语言的特性脱颖而出,整合了文本、图像和用户评论,为自然语言处理任务提供了丰富的上下文信息。其独特之处在于包含了九种印度语言的真实摘要,并通过读者评论增强了内容的深度和多样性。此外,数据集还提供了多种配置选项(如仅文章文本、文本加评论、文本加图像等),为研究不同输入组合对模型性能的影响提供了便利。
使用方法
COSMMIC数据集适用于多种自然语言生成任务,如摘要生成和标题生成。研究人员可以利用其多模态特性,探索文本、图像和评论的综合影响。使用该数据集时,建议先进行数据预处理,如过滤噪声评论和分类图像。实验配置可包括仅使用文章文本、结合评论或图像等不同组合,以评估模型性能。此外,数据集还可用于跨语言和多模态模型的基准测试,推动印度语言NLP研究的发展。
背景与挑战
背景概述
COSMMIC(Comment-Sensitive Multimodal Multilingual Indian Corpus for Summarization and Headline Generation)是由印度理工学院帕特纳分校等机构的研究团队于2025年推出的多模态多语言数据集,旨在填补印度语言在评论感知摘要生成领域的研究空白。该数据集包含4,959篇新闻文章与配图对及24,484条读者评论,涵盖九种主要印度语言,包括孟加拉语、印地语、古吉拉特语等。其创新性在于整合了文本、图像和用户评论三种模态,为开发能够全面理解数字媒体内容的先进NLP模型提供了重要资源。该数据集的建立推动了印度语言处理研究的发展,促进了语言技术的包容性。
当前挑战
COSMMIC面临的核心挑战体现在两个维度:领域问题方面,需解决多语言环境下评论感知的多模态摘要生成难题,包括如何有效融合异构数据(文本、图像、评论)以及处理低资源语言的语义表征;构建过程方面,存在数据采集复杂性(需从动态网页抓取多语言内容)、评论噪声过滤(需区分支持性、补充性和无关评论)、多语言标注一致性(需确保九种语言的摘要质量均衡)等挑战。此外,印度语言间的语法结构和表意方式差异为跨语言建模带来了额外难度,而用户评论的情感极性识别和图像-文本对齐问题也增加了多模态融合的复杂度。
常用场景
经典使用场景
COSMMIC数据集在自然语言处理领域中被广泛应用于多模态和多语言的摘要生成及标题生成任务。该数据集通过整合文章文本、图像和用户评论,为研究者提供了一个全面的平台,用于探索如何利用多模态数据提升摘要和标题的生成质量。特别是在印度语言环境下,COSMMIC填补了现有数据集的空白,支持了包括印地语、孟加拉语、泰米尔语等多种语言的深入研究。
解决学术问题
COSMMIC数据集解决了多模态和多语言环境下摘要生成和标题生成的关键学术问题。传统数据集往往仅包含文本或缺乏用户评论,难以全面捕捉数字媒体中的丰富信息。COSMMIC通过整合文本、图像和评论,为研究者提供了更全面的数据支持,推动了多模态自然语言生成任务的发展。此外,该数据集还支持对印度语言的研究,促进了语言多样性和包容性在NLP领域的应用。
衍生相关工作
COSMMIC数据集衍生了一系列相关研究,特别是在多模态摘要生成和标题生成领域。基于该数据集的研究工作探索了如何有效整合文本、图像和用户评论,以提升生成任务的质量。此外,该数据集还启发了对印度语言处理的新方法,例如使用IndicBERT进行评论分类和多语言CLIP进行图像分类。这些工作不仅扩展了数据集的应用范围,还为多模态NLP研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作