laskinaa/WikiCCC
收藏Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/laskinaa/WikiCCC
下载链接
链接失效反馈官方服务:
资源简介:
WikiCCI是一个基于Wikipedia的聚类(标记)可比语料库,用于聚类可比语料。更详细的描述可以在论文《Creating Clustered Comparable Corpora from Wikipedia with Different Fuzziness Levels and Language Representativity》中找到,该论文由Anna Laskina, Eric Gaussier, Gaelle Calvary撰写,并在第17届构建和使用可比语料库研讨会(BUCC 2024)上被接受。
WikiCCI是一个基于Wikipedia的聚类(标记)可比语料库,用于聚类可比语料。更详细的描述可以在论文《Creating Clustered Comparable Corpora from Wikipedia with Different Fuzziness Levels and Language Representativity》中找到,该论文由Anna Laskina, Eric Gaussier, Gaelle Calvary撰写,并在第17届构建和使用可比语料库研讨会(BUCC 2024)上被接受。
提供机构:
laskinaa
原始信息汇总
WikiCCC数据集概述
数据集基本信息
- 名称: WikiCCC
- 类型: 基于维基百科的聚类(标记)可比语料库
数据集内容
- 用途: 用于聚类可比语料库
- 详细描述: 该数据集的详细描述可在论文《Creating Clustered Comparable Corpora from Wikipedia with Different Fuzziness Levels and Language Representativity》中找到,该论文由Anna Laskina, Eric Gaussier, Gaelle Calvary撰写,并被接受于第17届可比语料库构建与使用研讨会(BUCC 2024)。
数据集属性
- 许可证: AGPL-3.0
- 任务类别: 文本分类
- 支持语言: 英语、法语、德语、俄语、瑞典语
- 标签: 网络数据集、维基百科



