five

ILSUM/ILSUM-1.0

收藏
Hugging Face2023-07-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ILSUM/ILSUM-1.0
下载链接
链接失效反馈
官方服务:
资源简介:
ILSUM-1.0数据集旨在为印度语言的自动文本摘要任务提供可重用的语料库。该数据集涵盖了印地语、古吉拉特语和印度英语,每个语言提供约10,000篇新闻文章。数据集的独特挑战在于代码混合和脚本混合现象,即新闻文章中常借用英语短语。数据字段包括id、文章、标题和摘要。数据分为训练集、验证集和测试集。

ILSUM-1.0数据集旨在为印度语言的自动文本摘要任务提供可重用的语料库。该数据集涵盖了印地语、古吉拉特语和印度英语,每个语言提供约10,000篇新闻文章。数据集的独特挑战在于代码混合和脚本混合现象,即新闻文章中常借用英语短语。数据字段包括id、文章、标题和摘要。数据分为训练集、验证集和测试集。
提供机构:
ILSUM
原始信息汇总

数据集概述

数据集名称

  • ILSUM-1.0

数据集任务类别

  • 文本摘要

支持的语言

  • 印地语 (Hindi)
  • 古吉拉特语 (Gujarati)
  • 英语 (English)

数据集配置

  • 印地语配置
    • 训练数据:Hindi/train.csv
    • 测试数据:Hindi/test.csv
    • 验证数据:Hindi/val.csv
    • 默认配置:是
  • 古吉拉特语配置
    • 训练数据:Gujarati/train.csv
    • 测试数据:Gujarati/test.csv
    • 验证数据:Gujarati/val.csv
  • 英语配置
    • 训练数据:English/train.csv
    • 测试数据:English/test.csv
    • 验证数据:English/val.csv

数据集大小分类

  • 1K<n<10K
  • 10K<n<100K

数据集描述

  • 该数据集旨在为印度语言的自动文本摘要提供可重用的语料库,涵盖印地语、古吉拉特语和印度英语。数据集包含约10,000篇新闻文章,每种语言均有相应的文章和标题对,用于生成有意义的固定长度摘要。

数据字段

  • id:每个数据点的唯一标识
  • Article:完整的新闻文章
  • Headline:新闻文章的标题
  • Summary:新闻文章的摘要

数据分割

  • 所有三种语言的数据均分为训练、验证和测试三个部分。

数据集加载示例

python from datasets import load_dataset

dataset = load_dataset("ILSUM/ILSUM-1.0", "Hindi")

引用信息

  • 若使用此数据集或模型,请引用以下论文:

    @article{satapara2022findings, title={Findings of the first shared task on indian language summarization (ilsum): Approaches, challenges and the path ahead}, author={Satapara, Shrey and Modha, Bhavan and Modha, Sandip and Mehta, Parth}, journal={Working Notes of FIRE}, pages={9--13}, year={2022} }

贡献者

  • Bhavan Modha,德克萨斯大学达拉斯分校,美国
  • Shrey Satapara,印度理工学院海得拉巴分校,印度
  • Sandip Modha,LDRP-ITR,甘地纳加尔,印度
  • Parth Mehta,Parmonic,美国
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作