five

dumitrescustefan/ro_sts

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/dumitrescustefan/ro_sts
下载链接
链接失效反馈
官方服务:
资源简介:
RO-STS数据集是一个用于罗马尼亚语的语义文本相似性数据集。它是STS英语数据集的高质量翻译版本,包含了8,628对句子及其相似性评分。数据集分为训练集、验证集和测试集,分别包含5,749、1,500和1,379对句子。数据集的创建过程包括自动翻译和人工校对,确保了数据的质量。数据集的结构包括三个字段:score(相似性评分)、sentence1和sentence2(待比较的句子)。

RO-STS数据集是一个用于罗马尼亚语的语义文本相似性数据集。它是STS英语数据集的高质量翻译版本,包含了8,628对句子及其相似性评分。数据集分为训练集、验证集和测试集,分别包含5,749、1,500和1,379对句子。数据集的创建过程包括自动翻译和人工校对,确保了数据的质量。数据集的结构包括三个字段:score(相似性评分)、sentence1和sentence2(待比较的句子)。
提供机构:
dumitrescustefan
原始信息汇总

数据集概述

数据集基本信息

  • 名称: RO-STS
  • 语言: 罗马尼亚语 (ro)
  • 许可证: CC BY-SA 4.0
  • 多语言性: 单语种
  • 大小: 1K<n<10K
  • 任务类别: 文本分类
  • 任务ID:
    • 文本评分
    • 语义相似度评分

数据集结构

数据实例

{score: 1.5, sentence1: Un bărbat cântă la harpă., sentence2: Un bărbat cântă la claviatură., }

数据字段

  • score: 浮点数,表示语义相似度评分,范围0.0至5.0
  • sentence1: 字符串,表示文本
  • sentence2: 字符串,用于与sentence1比较

数据分割

  • 训练集: 5749个实例
  • 测试集: 1379个实例
  • 验证集: 1500个实例

数据集创建

源数据

  • 初始数据收集与规范化: 使用Google翻译引擎进行自动翻译,后由志愿者手动检查和修正。

许可证信息

  • 许可证: CC BY-SA 4.0

引用信息

@inproceedings{dumitrescu2021liro, title={Liro: Benchmark and leaderboard for romanian language tasks}, author={Dumitrescu, Stefan Daniel and Rebeja, Petru and Lorincz, Beata and Gaman, Mihaela and Avram, Andrei and Ilie, Mihai and Pruteanu, Andrei and Stan, Adriana and Rosia, Lorena and Iacobescu, Cristina and others}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 1)}, year={2021} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作