five

ZurichNLP/rsd-ists-2016

收藏
Hugging Face2025-06-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ZurichNLP/rsd-ists-2016
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是用于识别语义差异(RSD)任务的训练和测试数据集。数据来源于SemEval-2016任务2,经过机器翻译扩展到多种语言。数据集包含两种语言的文本对以及相应的标签,用于token-level的语义差异识别。

Training and test data for the task of Recognizing Semantic Differences (RSD), including text pairs in two languages and corresponding labels for token-level semantic difference identification, derived from SemEval-2016 Task 2 and expanded to multiple languages using machine translation.
提供机构:
ZurichNLP
原始信息汇总

数据集概述

数据集特征

  • tokens_a: 字符串序列
  • tokens_b: 字符串序列
  • labels_a: 浮点数序列
  • labels_b: 浮点数序列
  • lang_a: 字符串类型
  • lang_b: 字符串类型
  • subset: 字符串类型
  • id: 字符串类型
  • alignments: 字符串类型

数据集分割

  • 训练集:
    • train_en: 1506个样本,1640900字节
    • train_de: 3012个样本,1101404字节
    • train_es: 3012个样本,1154765字节
    • train_fr: 3012个样本,1206414字节
    • train_ja: 3012个样本,838252字节
    • train_ko: 3012个样本,829328字节
    • train_zh: 3012个样本,796140字节
  • 测试集:
    • test_en: 750个样本,833900字节
    • test_de: 1500个样本,558624字节
    • test_es: 1500个样本,580224字节
    • test_fr: 1500个样本,610017字节
    • test_ja: 1500个样本,425912字节
    • test_ko: 1500个样本,424407字节
    • test_zh: 1500个样本,403680字节

数据集大小

  • 下载大小: 2569205字节
  • 数据集大小: 11403967字节

任务类别

  • 令牌分类

语言

  • 英语 (en)
  • 德语 (de)
  • 西班牙语 (es)
  • 法语 (fr)
  • 日语 (ja)
  • 韩语 (ko)
  • 中文 (zh)

大小类别

  • 1K<n<10K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作