five

laskinaa/WikiCCC

收藏
Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/laskinaa/WikiCCC
下载链接
链接失效反馈
官方服务:
资源简介:
WikiCCI是一个基于Wikipedia的聚类(标记)可比语料库,用于聚类可比语料。更详细的描述可以在论文《Creating Clustered Comparable Corpora from Wikipedia with Different Fuzziness Levels and Language Representativity》中找到,该论文由Anna Laskina, Eric Gaussier, Gaelle Calvary撰写,并在第17届构建和使用可比语料库研讨会(BUCC 2024)上被接受。

WikiCCI是一个基于Wikipedia的聚类(标记)可比语料库,用于聚类可比语料。更详细的描述可以在论文《Creating Clustered Comparable Corpora from Wikipedia with Different Fuzziness Levels and Language Representativity》中找到,该论文由Anna Laskina, Eric Gaussier, Gaelle Calvary撰写,并在第17届构建和使用可比语料库研讨会(BUCC 2024)上被接受。
提供机构:
laskinaa
原始信息汇总

WikiCCC数据集概述

数据集基本信息

  • 名称: WikiCCC
  • 类型: 基于维基百科的聚类(标记)可比语料库

数据集内容

  • 用途: 用于聚类可比语料库
  • 详细描述: 该数据集的详细描述可在论文《Creating Clustered Comparable Corpora from Wikipedia with Different Fuzziness Levels and Language Representativity》中找到,该论文由Anna Laskina, Eric Gaussier, Gaelle Calvary撰写,并被接受于第17届可比语料库构建与使用研讨会(BUCC 2024)。

数据集属性

  • 许可证: AGPL-3.0
  • 任务类别: 文本分类
  • 支持语言: 英语、法语、德语、俄语、瑞典语
  • 标签: 网络数据集、维基百科
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作