shamotskyi/up_titles_masked

Name: shamotskyi/up_titles_masked
Creator: shamotskyi
Published: 2024-04-26 19:39:12
License: 暂无描述

Hugging Face2024-04-26 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/shamotskyi/up_titles_masked

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Ukrainska Pravda Titles Classification dataset，基于ukr_pravda_2y数据集，主要用于乌克兰语的文章标题分类任务。数据集包含每篇文章的文本和标题，以及经过掩码处理的文本和标题（所有数字被替换为X）。数据集的标签列指向正确掩码标题的索引。文章相似性基于文章标签的二进制向量的余弦距离计算，选择10个最相似的文章标题作为选项。该数据集是作者硕士论文的一部分，未来可能会有更好的文档。

提供机构：

shamotskyi

原始信息汇总

数据集概述

基本信息

语言: 乌克兰语
来源数据集: shamotskyi/ukr_pravda_2y
许可证: CC-BY-NC 4.0
名称: Ukrainska Pravda Titles Classification dataset
多语言性: 单语种

特征

标签:
- 名称: label
- 数据类型: int32

数据内容

每个文章包含文本和标题，以及经过掩码处理的文本和标题（所有数字被替换为 "X"）。
相似文章的索引引用自 ukr_pravda_2y 数据集中的 ID。
作为机器学习评估任务，提供了来自相似文章的 10 个掩码标题（包括真实的标题），label 列指向正确的掩码标题的索引。

相似度计算

文章相似度基于二进制向量的余弦距离：
- 使用 spacy 的 CountVectorizer 构建向量，标签不存在为 0，存在为 1。
- 相似度为两个文章向量之间的余弦距离。
- 选取 10 个最相似文章的标题。

备注

这种简单的相似度计算可能不是最优的，因为存在许多标签完全相同的文章（例如 "Україна, Росія, Вагнер"）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集