five

vgaraujov/thesis-chile

收藏
Hugging Face2023-09-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vgaraujov/thesis-chile
下载链接
链接失效反馈
官方服务:
资源简介:
Thesis Chile数据集是一个用于摘要生成、文本生成和文本分类任务的西班牙语数据集。该数据集通过从智利几所大学(包括智利天主教大学、智利大学和费德里科圣玛丽亚技术大学)的公共仓库中抓取论文标题和摘要创建,部分用于创建西班牙语句子评估基准(DiscoEval in Spanish benchmark)。数据集支持判别性和生成性任务,例如语义相似性或蕴含评估,以及生成标题的摘要任务。
提供机构:
vgaraujov
原始信息汇总

Thesis Chile 数据集

数据集概述

Thesis Chile 数据集部分用于创建 DiscoEval in Spanish 基准测试。该数据集通过抓取智利论文的标题和摘要创建,来源包括智利天主教大学(repositorio.uc.cl)、智利大学(repositorio.uchile.cl)和圣玛丽亚理工大学(biblioteca.usm.cl)的公共仓库。

支持的任务

该数据集适用于判别和生成任务。对于分类任务,标题-摘要对提供了评估语义相似性或蕴含关系的机会。在生成任务中,摘要可以作为模型生成标题(总结)的输入。

引用信息

@inproceedings{araujo-etal-2022-evaluation, title = "Evaluation Benchmarks for {S}panish Sentence Representations", author = "Araujo, Vladimir and Carvallo, Andr{e}s and Kundu, Souvik and Ca{~n}ete, Jos{e} and Mendoza, Marcelo and Mercer, Robert E. and Bravo-Marquez, Felipe and Moens, Marie-Francine and Soto, Alvaro", booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.lrec-1.648", pages = "6024--6034", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作