pasinit/xlwic

Name: pasinit/xlwic
Creator: pasinit
Published: 2022-10-25 09:54:22
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pasinit/xlwic

下载链接

链接失效反馈

官方服务：

资源简介：

XL-WiC是一个多语言数据集，主要用于文本分类任务，特别是语义相似性分类。数据集包含多种语言，包括英语、法语、德语、意大利语等。训练数据可用于英语、法语、德语和意大利语，而开发/测试数据则涵盖了更多的语言，如保加利亚语、中文、克罗地亚语等。数据集的使用需要指定训练语言和目标语言，以便加载相应的配置。

提供机构：

pasinit

原始信息汇总

数据集概述

基本信息

名称: XL-WiC
语言: 多语言，包括英语(en)、保加利亚语(bg)、中文(zh)、克罗地亚语(hr)、丹麦语(da)、荷兰语(nl)、爱沙尼亚语(et)、波斯语(fa)、日语(ja)、韩语(ko)、意大利语(it)、法语(fr)、德语(de)
许可证: cc-by-nc-4.0
多语言性: 多语言
大小: 10K<n<100K

数据来源与创建

注释创建者: 专家生成
扩展: 原始数据
语言创建者: 发现
源数据集: 原始数据

任务与配置

任务类别: 文本分类
任务ID: 语义相似度分类
配置: 加载数据集时需指定训练语言和目标语言。例如，使用英语作为训练语言，意大利语作为目标语言的加载方式如下： python from datasets import load_dataset dataset = load_dataset(pasinit/xlwic, en_it)

语言可用性

训练数据: 英语(en)、法语(fr)、德语(de)、意大利语(it)
开发与测试数据: 法语(fr)、德语(de)、意大利语(it)、保加利亚语(bg)、中文(zh)、克罗地亚语(hr)、丹麦语(da)、荷兰语(nl)、爱沙尼亚语(et)、波斯语(fa)、日语(ja)、韩语(ko)

5,000+

优质数据集

54 个

任务类型

进入经典数据集