ILSUM/ILSUM-1.0

Name: ILSUM/ILSUM-1.0
Creator: ILSUM
Published: 2023-07-26 13:05:11
License: 暂无描述

Hugging Face2023-07-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ILSUM/ILSUM-1.0

下载链接

链接失效反馈

官方服务：

资源简介：

ILSUM-1.0数据集旨在为印度语言的自动文本摘要任务提供可重用的语料库。该数据集涵盖了印地语、古吉拉特语和印度英语，每个语言提供约10,000篇新闻文章。数据集的独特挑战在于代码混合和脚本混合现象，即新闻文章中常借用英语短语。数据字段包括id、文章、标题和摘要。数据分为训练集、验证集和测试集。

提供机构：

ILSUM

原始信息汇总

印地语配置
- 训练数据：Hindi/train.csv
- 测试数据：Hindi/test.csv
- 验证数据：Hindi/val.csv
- 默认配置：是
古吉拉特语配置
- 训练数据：Gujarati/train.csv
- 测试数据：Gujarati/test.csv
- 验证数据：Gujarati/val.csv
英语配置
- 训练数据：English/train.csv
- 测试数据：English/test.csv
- 验证数据：English/val.csv

该数据集旨在为印度语言的自动文本摘要提供可重用的语料库，涵盖印地语、古吉拉特语和印度英语。数据集包含约10,000篇新闻文章，每种语言均有相应的文章和标题对，用于生成有意义的固定长度摘要。

python from datasets import load_dataset

dataset = load_dataset("ILSUM/ILSUM-1.0", "Hindi")

若使用此数据集或模型，请引用以下论文：

@article{satapara2022findings, title={Findings of the first shared task on indian language summarization (ilsum): Approaches, challenges and the path ahead}, author={Satapara, Shrey and Modha, Bhavan and Modha, Sandip and Mehta, Parth}, journal={Working Notes of FIRE}, pages={9--13}, year={2022} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集