ILSUM/ILSUM-1.0
收藏Hugging Face2023-07-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ILSUM/ILSUM-1.0
下载链接
链接失效反馈官方服务:
资源简介:
ILSUM-1.0数据集旨在为印度语言的自动文本摘要任务提供可重用的语料库。该数据集涵盖了印地语、古吉拉特语和印度英语,每个语言提供约10,000篇新闻文章。数据集的独特挑战在于代码混合和脚本混合现象,即新闻文章中常借用英语短语。数据字段包括id、文章、标题和摘要。数据分为训练集、验证集和测试集。
ILSUM-1.0数据集旨在为印度语言的自动文本摘要任务提供可重用的语料库。该数据集涵盖了印地语、古吉拉特语和印度英语,每个语言提供约10,000篇新闻文章。数据集的独特挑战在于代码混合和脚本混合现象,即新闻文章中常借用英语短语。数据字段包括id、文章、标题和摘要。数据分为训练集、验证集和测试集。
提供机构:
ILSUM
原始信息汇总
数据集概述
数据集名称
- ILSUM-1.0
数据集任务类别
- 文本摘要
支持的语言
- 印地语 (Hindi)
- 古吉拉特语 (Gujarati)
- 英语 (English)
数据集配置
- 印地语配置
- 训练数据:Hindi/train.csv
- 测试数据:Hindi/test.csv
- 验证数据:Hindi/val.csv
- 默认配置:是
- 古吉拉特语配置
- 训练数据:Gujarati/train.csv
- 测试数据:Gujarati/test.csv
- 验证数据:Gujarati/val.csv
- 英语配置
- 训练数据:English/train.csv
- 测试数据:English/test.csv
- 验证数据:English/val.csv
数据集大小分类
- 1K<n<10K
- 10K<n<100K
数据集描述
- 该数据集旨在为印度语言的自动文本摘要提供可重用的语料库,涵盖印地语、古吉拉特语和印度英语。数据集包含约10,000篇新闻文章,每种语言均有相应的文章和标题对,用于生成有意义的固定长度摘要。
数据字段
- id:每个数据点的唯一标识
- Article:完整的新闻文章
- Headline:新闻文章的标题
- Summary:新闻文章的摘要
数据分割
- 所有三种语言的数据均分为训练、验证和测试三个部分。
数据集加载示例
python from datasets import load_dataset
dataset = load_dataset("ILSUM/ILSUM-1.0", "Hindi")
引用信息
-
若使用此数据集或模型,请引用以下论文:
@article{satapara2022findings, title={Findings of the first shared task on indian language summarization (ilsum): Approaches, challenges and the path ahead}, author={Satapara, Shrey and Modha, Bhavan and Modha, Sandip and Mehta, Parth}, journal={Working Notes of FIRE}, pages={9--13}, year={2022} }
贡献者
- Bhavan Modha,德克萨斯大学达拉斯分校,美国
- Shrey Satapara,印度理工学院海得拉巴分校,印度
- Sandip Modha,LDRP-ITR,甘地纳加尔,印度
- Parth Mehta,Parmonic,美国



