ZurichNLP/rsd-ists-2016
收藏Hugging Face2025-06-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZurichNLP/rsd-ists-2016
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是用于识别语义差异(RSD)任务的训练和测试数据集。数据来源于SemEval-2016任务2,经过机器翻译扩展到多种语言。数据集包含两种语言的文本对以及相应的标签,用于token-level的语义差异识别。
Training and test data for the task of Recognizing Semantic Differences (RSD), including text pairs in two languages and corresponding labels for token-level semantic difference identification, derived from SemEval-2016 Task 2 and expanded to multiple languages using machine translation.
提供机构:
ZurichNLP
原始信息汇总
数据集概述
数据集特征
- tokens_a: 字符串序列
- tokens_b: 字符串序列
- labels_a: 浮点数序列
- labels_b: 浮点数序列
- lang_a: 字符串类型
- lang_b: 字符串类型
- subset: 字符串类型
- id: 字符串类型
- alignments: 字符串类型
数据集分割
- 训练集:
- train_en: 1506个样本,1640900字节
- train_de: 3012个样本,1101404字节
- train_es: 3012个样本,1154765字节
- train_fr: 3012个样本,1206414字节
- train_ja: 3012个样本,838252字节
- train_ko: 3012个样本,829328字节
- train_zh: 3012个样本,796140字节
- 测试集:
- test_en: 750个样本,833900字节
- test_de: 1500个样本,558624字节
- test_es: 1500个样本,580224字节
- test_fr: 1500个样本,610017字节
- test_ja: 1500个样本,425912字节
- test_ko: 1500个样本,424407字节
- test_zh: 1500个样本,403680字节
数据集大小
- 下载大小: 2569205字节
- 数据集大小: 11403967字节
任务类别
- 令牌分类
语言
- 英语 (en)
- 德语 (de)
- 西班牙语 (es)
- 法语 (fr)
- 日语 (ja)
- 韩语 (ko)
- 中文 (zh)
大小类别
- 1K<n<10K



