dumitrescustefan/ro_sts
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/dumitrescustefan/ro_sts
下载链接
链接失效反馈官方服务:
资源简介:
RO-STS数据集是一个用于罗马尼亚语的语义文本相似性数据集。它是STS英语数据集的高质量翻译版本,包含了8,628对句子及其相似性评分。数据集分为训练集、验证集和测试集,分别包含5,749、1,500和1,379对句子。数据集的创建过程包括自动翻译和人工校对,确保了数据的质量。数据集的结构包括三个字段:score(相似性评分)、sentence1和sentence2(待比较的句子)。
RO-STS数据集是一个用于罗马尼亚语的语义文本相似性数据集。它是STS英语数据集的高质量翻译版本,包含了8,628对句子及其相似性评分。数据集分为训练集、验证集和测试集,分别包含5,749、1,500和1,379对句子。数据集的创建过程包括自动翻译和人工校对,确保了数据的质量。数据集的结构包括三个字段:score(相似性评分)、sentence1和sentence2(待比较的句子)。
提供机构:
dumitrescustefan
原始信息汇总
数据集概述
数据集基本信息
- 名称: RO-STS
- 语言: 罗马尼亚语 (
ro) - 许可证: CC BY-SA 4.0
- 多语言性: 单语种
- 大小: 1K<n<10K
- 任务类别: 文本分类
- 任务ID:
- 文本评分
- 语义相似度评分
数据集结构
数据实例
{score: 1.5, sentence1: Un bărbat cântă la harpă., sentence2: Un bărbat cântă la claviatură., }
数据字段
- score: 浮点数,表示语义相似度评分,范围0.0至5.0
- sentence1: 字符串,表示文本
- sentence2: 字符串,用于与
sentence1比较
数据分割
- 训练集: 5749个实例
- 测试集: 1379个实例
- 验证集: 1500个实例
数据集创建
源数据
- 初始数据收集与规范化: 使用Google翻译引擎进行自动翻译,后由志愿者手动检查和修正。
许可证信息
- 许可证: CC BY-SA 4.0
引用信息
@inproceedings{dumitrescu2021liro, title={Liro: Benchmark and leaderboard for romanian language tasks}, author={Dumitrescu, Stefan Daniel and Rebeja, Petru and Lorincz, Beata and Gaman, Mihaela and Avram, Andrei and Ilie, Mihai and Pruteanu, Andrei and Stan, Adriana and Rosia, Lorena and Iacobescu, Cristina and others}, booktitle={Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 1)}, year={2021} }



