pasinit/xlwic
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pasinit/xlwic
下载链接
链接失效反馈官方服务:
资源简介:
XL-WiC是一个多语言数据集,主要用于文本分类任务,特别是语义相似性分类。数据集包含多种语言,包括英语、法语、德语、意大利语等。训练数据可用于英语、法语、德语和意大利语,而开发/测试数据则涵盖了更多的语言,如保加利亚语、中文、克罗地亚语等。数据集的使用需要指定训练语言和目标语言,以便加载相应的配置。
提供机构:
pasinit
原始信息汇总
数据集概述
基本信息
- 名称: XL-WiC
- 语言: 多语言,包括英语(en)、保加利亚语(bg)、中文(zh)、克罗地亚语(hr)、丹麦语(da)、荷兰语(nl)、爱沙尼亚语(et)、波斯语(fa)、日语(ja)、韩语(ko)、意大利语(it)、法语(fr)、德语(de)
- 许可证: cc-by-nc-4.0
- 多语言性: 多语言
- 大小: 10K<n<100K
数据来源与创建
- 注释创建者: 专家生成
- 扩展: 原始数据
- 语言创建者: 发现
- 源数据集: 原始数据
任务与配置
- 任务类别: 文本分类
- 任务ID: 语义相似度分类
- 配置: 加载数据集时需指定训练语言和目标语言。例如,使用英语作为训练语言,意大利语作为目标语言的加载方式如下: python from datasets import load_dataset dataset = load_dataset(pasinit/xlwic, en_it)
语言可用性
- 训练数据: 英语(en)、法语(fr)、德语(de)、意大利语(it)
- 开发与测试数据: 法语(fr)、德语(de)、意大利语(it)、保加利亚语(bg)、中文(zh)、克罗地亚语(hr)、丹麦语(da)、荷兰语(nl)、爱沙尼亚语(et)、波斯语(fa)、日语(ja)、韩语(ko)



