five

GIL-UNAM/SpanishParaphraseCorpora

收藏
Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GIL-UNAM/SpanishParaphraseCorpora
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Spanish Paraphrase Corpora,包含手动改写的西班牙语文本,特别是围绕一个关于寿司的西班牙博客文章。数据集设计用于评估文本对之间的相似性,并评估不同的相似性度量方法。数据集包含不同层次的改写,包括词汇变化、句法变化、文本或话语组织变化以及句子的融合或分离。此外,还包括与原文主题相同但未改写的文本,以及与原文主题不同但词汇重叠的文本。

该数据集名为Spanish Paraphrase Corpora,包含手动改写的西班牙语文本,特别是围绕一个关于寿司的西班牙博客文章。数据集设计用于评估文本对之间的相似性,并评估不同的相似性度量方法。数据集包含不同层次的改写,包括词汇变化、句法变化、文本或话语组织变化以及句子的融合或分离。此外,还包括与原文主题相同但未改写的文本,以及与原文主题不同但词汇重叠的文本。
提供机构:
GIL-UNAM
原始信息汇总

西班牙语改写语料库

数据集概述

  • 名称: 西班牙语改写语料库
  • 语言: 西班牙语
  • 任务类别: 特征提取
  • 规模: 小于1千条
  • 许可证: CC0 1.0

数据集内容

  • 主要内容: 该语料库包含一篇关于寿司的西班牙语博客文章的多种改写版本。
  • 改写级别:
    • 低级别: 仅词汇变化
    • 高级别: 词汇、句法、文本或话语组织变化,以及句子的合并或分离
    • 无改写: 与原始文章主题和来源相同,与寿司相关的文本
    • 非寿司主题: 主题与原始文章不同但词汇重叠的文本

引用信息

  • 引用文献:
    1. Gómez-Adorno H., Bel-Enguix G., Sierra G., Torres-Moreno JM., Martinez R., Serrano P. (2020) Evaluation of Similarity Measures in a Benchmark for Spanish Paraphrasing Detection. In: Martínez-Villaseñor L., Herrera-Alcántara O., Ponce H., Castro-Espinoza F.A. (eds) Advances in Computational Intelligence. MICAI 2020. Lecture Notes in Computer Science, vol 12469. Springer, Cham. https://doi.org/10.1007/978-3-030-60887-3_19
    2. Castro, B., Sierra, G., Torres-Moreno, J.M., Da Cunha, I.: El discurso y la semántica como recursos para la detección de similitud textual. In: Proceedings of the III RST Meeting (8th Brazilian Symposium in Information and Human Language Technology, STIL 2011). Brazilian Computer Society, Cuiabá (2011)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作