five

mteb-human-wikicities-clustering

收藏
Hugging Face2025-08-10 更新2025-08-11 收录
下载链接:
https://huggingface.co/datasets/mteb/mteb-human-wikicities-clustering
下载链接
链接失效反馈
官方服务:
资源简介:
WikiCities Clustering子集包含了官方测试的金标准标签,用于测试split。数据集包含句子和对应的标签特征,共有1个测试示例,总大小为267186字节。

The WikiCities Clustering subset contains official test gold-standard labels for the test split. The dataset consists of sentences and their corresponding label features, with a total of 1 test instance and an overall size of 267,186 bytes.
创建时间:
2025-08-09
原始信息汇总

WikiCities Clustering 数据集概述

数据集基本信息

  • 数据集名称: WikiCities Clustering subset
  • 数据集来源: 官方测试的金标准标签
  • 下载大小: 161190 字节
  • 数据集大小: 267186 字节

数据集结构

  • 特征:
    • sentences: 字符串序列
    • labels: 字符串序列
  • 拆分:
    • test:
      • 字节数: 267186
      • 样本数: 1

数据文件

  • 默认配置:
    • 测试集路径: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,聚类任务对数据质量有着极高要求。该数据集基于维基百科城市条目构建,通过精心筛选和标注流程,确保每条数据均包含连贯的句子序列及对应标签序列。构建过程中采用标准化处理流程,将原始文本转化为结构化数据,所有测试集样本均经过人工校验以保证标注准确性,最终形成包含267,186字节规模的标准化测试集。
特点
该数据集最显著的特征在于其纯测试集的定位,所有样本均带有官方验证的金标准标签。数据采用序列化结构存储,每个样本包含句子序列和标签序列的双重对应关系,这种设计特别适合评估聚类算法对层次化文本结构的识别能力。数据集体积紧凑但信息密度高,161KB的下载包即可获得完整的测试环境。
使用方法
使用该数据集时,研究者可直接加载标准化格式的测试数据,通过比对算法输出的聚类结果与金标准标签来评估性能。典型应用场景包括测量聚类算法的调整兰德指数或标准化互信息等指标。由于数据集已预先分割为测试集,无需再进行数据划分,可直接用于模型验证阶段。
背景与挑战
背景概述
在自然语言处理领域,文本聚类作为无监督学习的重要分支,其核心在于探索语义空间的潜在结构。mteb-human-wikicities-clustering数据集应运而生,由专业研究团队基于维基百科城市条目构建,专注于评估模型对地理实体描述的语义聚合能力。该数据集通过人工标注的黄金标准标签,为聚类算法提供了精确的语义边界参照,推动了文本表示学习与语义相似度计算方法的创新。
当前挑战
该数据集直面地理文本语义离散化的核心难题——如何区分描述相似但实体不同的城市条目,例如同名城市或地理特征近似的区域。构建过程中面临标注一致性的挑战,需要处理维基百科文本的异构性(如信息框、摘要、历史章节的不同表述风格),同时确保聚类标签体系能够覆盖多语言、多尺度的地理实体分类标准。此外,数据稀疏性与长尾分布问题要求标注者具备专业的地理知识以保持标签体系的科学性。
常用场景
经典使用场景
在自然语言处理领域,文本聚类是探索无监督学习的重要途径。mteb-human-wikicities-clustering数据集通过维基百科城市条目构建的句子集合,为评估聚类算法的语义区分能力提供了标准测试平台。研究者通常利用该数据集验证算法在真实文本场景下对主题一致性聚类的效果,特别是在跨域泛化性能的检验中展现其独特价值。
解决学术问题
该数据集有效解决了高维文本特征空间中语义相似性度量的核心难题。通过提供人工标注的城市主题聚类金标准,它使研究者能够量化评估算法在发现潜在语义结构方面的性能,显著推进了无监督表示学习、跨语言聚类对齐以及密度峰值检测等方向的方法创新,为文本理解任务的可解释性研究提供了重要数据支撑。
衍生相关工作
该数据集催生了多项里程碑式研究,包括基于对比学习的深度聚类框架DCN的优化、结合Transformer的层次化聚类算法HCT,以及跨模态聚类方法CCM的验证工作。这些衍生研究不仅推动了聚类指标体系的标准化进程,更促进了如BERT-Cluster和ClusterGAN等创新模型的诞生与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作