GIL-UNAM/SpanishParaphraseCorpora

Name: GIL-UNAM/SpanishParaphraseCorpora
Creator: GIL-UNAM
Published: 2023-05-17 02:10:11
License: 暂无描述

Hugging Face2023-05-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GIL-UNAM/SpanishParaphraseCorpora

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Spanish Paraphrase Corpora，包含手动改写的西班牙语文本，特别是围绕一个关于寿司的西班牙博客文章。数据集设计用于评估文本对之间的相似性，并评估不同的相似性度量方法。数据集包含不同层次的改写，包括词汇变化、句法变化、文本或话语组织变化以及句子的融合或分离。此外，还包括与原文主题相同但未改写的文本，以及与原文主题不同但词汇重叠的文本。

提供机构：

GIL-UNAM

原始信息汇总

西班牙语改写语料库

数据集概述

名称: 西班牙语改写语料库
语言: 西班牙语
任务类别: 特征提取
规模: 小于1千条
许可证: CC0 1.0

数据集内容

主要内容: 该语料库包含一篇关于寿司的西班牙语博客文章的多种改写版本。
改写级别:
- 低级别: 仅词汇变化
- 高级别: 词汇、句法、文本或话语组织变化，以及句子的合并或分离
- 无改写: 与原始文章主题和来源相同，与寿司相关的文本
- 非寿司主题: 主题与原始文章不同但词汇重叠的文本

引用信息

引用文献:
1. Gómez-Adorno H., Bel-Enguix G., Sierra G., Torres-Moreno JM., Martinez R., Serrano P. (2020) Evaluation of Similarity Measures in a Benchmark for Spanish Paraphrasing Detection. In: Martínez-Villaseñor L., Herrera-Alcántara O., Ponce H., Castro-Espinoza F.A. (eds) Advances in Computational Intelligence. MICAI 2020. Lecture Notes in Computer Science, vol 12469. Springer, Cham. https://doi.org/10.1007/978-3-030-60887-3_19
2. Castro, B., Sierra, G., Torres-Moreno, J.M., Da Cunha, I.: El discurso y la semántica como recursos para la detección de similitud textual. In: Proceedings of the III RST Meeting (8th Brazilian Symposium in Information and Human Language Technology, STIL 2011). Brazilian Computer Society, Cuiabá (2011)

5,000+

优质数据集

54 个

任务类型

进入经典数据集