shamotskyi/up_titles_masked
收藏Hugging Face2024-04-26 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/shamotskyi/up_titles_masked
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Ukrainska Pravda Titles Classification dataset,基于ukr_pravda_2y数据集,主要用于乌克兰语的文章标题分类任务。数据集包含每篇文章的文本和标题,以及经过掩码处理的文本和标题(所有数字被替换为X)。数据集的标签列指向正确掩码标题的索引。文章相似性基于文章标签的二进制向量的余弦距离计算,选择10个最相似的文章标题作为选项。该数据集是作者硕士论文的一部分,未来可能会有更好的文档。
该数据集名为Ukrainska Pravda Titles Classification dataset,基于ukr_pravda_2y数据集,主要用于乌克兰语的文章标题分类任务。数据集包含每篇文章的文本和标题,以及经过掩码处理的文本和标题(所有数字被替换为X)。数据集的标签列指向正确掩码标题的索引。文章相似性基于文章标签的二进制向量的余弦距离计算,选择10个最相似的文章标题作为选项。该数据集是作者硕士论文的一部分,未来可能会有更好的文档。
提供机构:
shamotskyi
原始信息汇总
数据集概述
基本信息
- 语言: 乌克兰语
- 来源数据集: shamotskyi/ukr_pravda_2y
- 许可证: CC-BY-NC 4.0
- 名称: Ukrainska Pravda Titles Classification dataset
- 多语言性: 单语种
特征
- 标签:
- 名称: label
- 数据类型: int32
数据内容
- 每个文章包含文本和标题,以及经过掩码处理的文本和标题(所有数字被替换为 "X")。
- 相似文章的索引引用自 ukr_pravda_2y 数据集中的 ID。
- 作为机器学习评估任务,提供了来自相似文章的 10 个掩码标题(包括真实的标题),
label列指向正确的掩码标题的索引。
相似度计算
- 文章相似度基于二进制向量的余弦距离:
- 使用 spacy 的 CountVectorizer 构建向量,标签不存在为 0,存在为 1。
- 相似度为两个文章向量之间的余弦距离。
- 选取 10 个最相似文章的标题。
备注
- 这种简单的相似度计算可能不是最优的,因为存在许多标签完全相同的文章(例如 "Україна, Росія, Вагнер")。



