ZurichNLP/rsd-ists-2016

Name: ZurichNLP/rsd-ists-2016
Creator: ZurichNLP
Published: 2025-06-17 09:41:34
License: 暂无描述

Hugging Face2025-06-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ZurichNLP/rsd-ists-2016

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于识别语义差异（RSD）任务的训练和测试数据集。数据来源于SemEval-2016任务2，经过机器翻译扩展到多种语言。数据集包含两种语言的文本对以及相应的标签，用于token-level的语义差异识别。

Training and test data for the task of Recognizing Semantic Differences (RSD), including text pairs in two languages and corresponding labels for token-level semantic difference identification, derived from SemEval-2016 Task 2 and expanded to multiple languages using machine translation.

提供机构：

ZurichNLP

原始信息汇总

数据集概述

数据集特征

tokens_a: 字符串序列
tokens_b: 字符串序列
labels_a: 浮点数序列
labels_b: 浮点数序列
lang_a: 字符串类型
lang_b: 字符串类型
subset: 字符串类型
id: 字符串类型
alignments: 字符串类型

数据集分割

训练集:
- train_en: 1506个样本，1640900字节
- train_de: 3012个样本，1101404字节
- train_es: 3012个样本，1154765字节
- train_fr: 3012个样本，1206414字节
- train_ja: 3012个样本，838252字节
- train_ko: 3012个样本，829328字节
- train_zh: 3012个样本，796140字节
测试集:
- test_en: 750个样本，833900字节
- test_de: 1500个样本，558624字节
- test_es: 1500个样本，580224字节
- test_fr: 1500个样本，610017字节
- test_ja: 1500个样本，425912字节
- test_ko: 1500个样本，424407字节
- test_zh: 1500个样本，403680字节

数据集大小

下载大小: 2569205字节
数据集大小: 11403967字节

任务类别

令牌分类

语言

英语 (en)
德语 (de)
西班牙语 (es)
法语 (fr)
日语 (ja)
韩语 (ko)
中文 (zh)

大小类别

1K<n<10K

5,000+

优质数据集

54 个

任务类型

进入经典数据集