five

PlanTL-GOB-ES/sts-es

收藏
Hugging Face2023-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PlanTL-GOB-ES/sts-es
下载链接
链接失效反馈
官方服务:
资源简介:
STS-es数据集是一个用于语义文本相似性评分的西班牙语数据集。该数据集来源于SemEval-2014和SemEval-2015的西班牙语测试集,并随机划分为训练集(1,321个实例)、开发集(78个实例)和测试集(156个实例)。数据集的创建目的是为了增强西班牙语语言模型的开发。每个数据实例包括两个句子和一个相似性评分标签。数据集的创建过程涉及从西班牙语维基百科和西班牙新闻文本中收集数据,并由专家进行注释。
提供机构:
PlanTL-GOB-ES
原始信息汇总

数据集概述

名称: STS-es

语言: 西班牙语 (es-ES)

任务类别: 文本分类

任务ID:

  • 语义相似度评分
  • 文本评分

数据集结构:

  • 数据实例:

    { sentence1: String, sentence2: String, label: Float }

  • 数据字段:

    • sentence1: 字符串
    • sentence2: 字符串
    • label: 浮点数
  • 数据分割:

    • 训练集: 1,321 实例
    • 开发集: 78 实例
    • 测试集: 156 实例

数据集创建:

  • 源数据: 来自西班牙维基百科(2013年数据)和西班牙新闻文本(2014年)
  • 注释过程: 专家生成

使用数据注意事项:

  • 社会影响: 促进西班牙语语言模型的发展
  • 偏见讨论: 未应用后处理步骤以减轻潜在的社会偏见

引用信息:

@inproceedings{agirre2015semeval, title={Semeval-2015 task 2: Semantic textual similarity, english, spanish and pilot on interpretability}, author={Agirre, Eneko and Banea, Carmen and Cardie, Claire and Cer, Daniel and Diab, Mona and Gonzalez-Agirre, Aitor and Guo, Weiwei and Lopez-Gazpio, Inigo and Maritxalar, Montse and Mihalcea, Rada and others}, booktitle={Proceedings of the 9th international workshop on semantic evaluation (SemEval 2015)}, pages={252--263}, year={2015} }

@inproceedings{agirre2014semeval, title={SemEval-2014 Task 10: Multilingual Semantic Textual Similarity.}, author={Agirre, Eneko and Banea, Carmen and Cardie, Claire and Cer, Daniel M and Diab, Mona T and Gonzalez-Agirre, Aitor and Guo, Weiwei and Mihalcea, Rada and Rigau, German and Wiebe, Janyce}, booktitle={SemEval@ COLING}, pages={81--91}, year={2014} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作