GIL-UNAM/SpanishParaphraseCorpora
收藏Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GIL-UNAM/SpanishParaphraseCorpora
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Spanish Paraphrase Corpora,包含手动改写的西班牙语文本,特别是围绕一个关于寿司的西班牙博客文章。数据集设计用于评估文本对之间的相似性,并评估不同的相似性度量方法。数据集包含不同层次的改写,包括词汇变化、句法变化、文本或话语组织变化以及句子的融合或分离。此外,还包括与原文主题相同但未改写的文本,以及与原文主题不同但词汇重叠的文本。
该数据集名为Spanish Paraphrase Corpora,包含手动改写的西班牙语文本,特别是围绕一个关于寿司的西班牙博客文章。数据集设计用于评估文本对之间的相似性,并评估不同的相似性度量方法。数据集包含不同层次的改写,包括词汇变化、句法变化、文本或话语组织变化以及句子的融合或分离。此外,还包括与原文主题相同但未改写的文本,以及与原文主题不同但词汇重叠的文本。
提供机构:
GIL-UNAM
原始信息汇总
西班牙语改写语料库
数据集概述
- 名称: 西班牙语改写语料库
- 语言: 西班牙语
- 任务类别: 特征提取
- 规模: 小于1千条
- 许可证: CC0 1.0
数据集内容
- 主要内容: 该语料库包含一篇关于寿司的西班牙语博客文章的多种改写版本。
- 改写级别:
- 低级别: 仅词汇变化
- 高级别: 词汇、句法、文本或话语组织变化,以及句子的合并或分离
- 无改写: 与原始文章主题和来源相同,与寿司相关的文本
- 非寿司主题: 主题与原始文章不同但词汇重叠的文本
引用信息
- 引用文献:
- Gómez-Adorno H., Bel-Enguix G., Sierra G., Torres-Moreno JM., Martinez R., Serrano P. (2020) Evaluation of Similarity Measures in a Benchmark for Spanish Paraphrasing Detection. In: Martínez-Villaseñor L., Herrera-Alcántara O., Ponce H., Castro-Espinoza F.A. (eds) Advances in Computational Intelligence. MICAI 2020. Lecture Notes in Computer Science, vol 12469. Springer, Cham. https://doi.org/10.1007/978-3-030-60887-3_19
- Castro, B., Sierra, G., Torres-Moreno, J.M., Da Cunha, I.: El discurso y la semántica como recursos para la detección de similitud textual. In: Proceedings of the III RST Meeting (8th Brazilian Symposium in Information and Human Language Technology, STIL 2011). Brazilian Computer Society, Cuiabá (2011)



