five

shamotskyi/up_titles_masked

收藏
Hugging Face2024-04-26 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/shamotskyi/up_titles_masked
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Ukrainska Pravda Titles Classification dataset,基于ukr_pravda_2y数据集,主要用于乌克兰语的文章标题分类任务。数据集包含每篇文章的文本和标题,以及经过掩码处理的文本和标题(所有数字被替换为X)。数据集的标签列指向正确掩码标题的索引。文章相似性基于文章标签的二进制向量的余弦距离计算,选择10个最相似的文章标题作为选项。该数据集是作者硕士论文的一部分,未来可能会有更好的文档。

该数据集名为Ukrainska Pravda Titles Classification dataset,基于ukr_pravda_2y数据集,主要用于乌克兰语的文章标题分类任务。数据集包含每篇文章的文本和标题,以及经过掩码处理的文本和标题(所有数字被替换为X)。数据集的标签列指向正确掩码标题的索引。文章相似性基于文章标签的二进制向量的余弦距离计算,选择10个最相似的文章标题作为选项。该数据集是作者硕士论文的一部分,未来可能会有更好的文档。
提供机构:
shamotskyi
原始信息汇总

数据集概述

基本信息

  • 语言: 乌克兰语
  • 来源数据集: shamotskyi/ukr_pravda_2y
  • 许可证: CC-BY-NC 4.0
  • 名称: Ukrainska Pravda Titles Classification dataset
  • 多语言性: 单语种

特征

  • 标签:
    • 名称: label
    • 数据类型: int32

数据内容

  • 每个文章包含文本和标题,以及经过掩码处理的文本和标题(所有数字被替换为 "X")。
  • 相似文章的索引引用自 ukr_pravda_2y 数据集中的 ID。
  • 作为机器学习评估任务,提供了来自相似文章的 10 个掩码标题(包括真实的标题),label 列指向正确的掩码标题的索引。

相似度计算

  • 文章相似度基于二进制向量的余弦距离:
    • 使用 spacy 的 CountVectorizer 构建向量,标签不存在为 0,存在为 1。
    • 相似度为两个文章向量之间的余弦距离。
    • 选取 10 个最相似文章的标题。

备注

  • 这种简单的相似度计算可能不是最优的,因为存在许多标签完全相同的文章(例如 "Україна, Росія, Вагнер")。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作