shamotskyi/up_titles_masked_eng

Name: shamotskyi/up_titles_masked_eng
Creator: shamotskyi
Published: 2024-02-18 23:34:17
License: 暂无描述

Hugging Face2024-02-18 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/shamotskyi/up_titles_masked_eng

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于ukr_pravda数据集，包含每篇文章的文本和标题，以及经过掩码处理的文本和标题（所有数字被替换为X）。数据集用于机器学习评估任务，提供10个相似文章的掩码标题供选择，其中一个是正确的，`label`列指向正确标题的索引。文章相似性通过简单的余弦距离计算，基于文章标签的二进制向量。尽管这种方法可能不够优化，因为许多文章具有完全相同的标签，导致相似性为1.0，但这是在硕士论文背景下进行的初步工作，未来会有更好的文档。

提供机构：

shamotskyi

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: CC BY-NC 4.0
标签: 新闻

数据内容

来源: 基于 ukr_pravda 数据集
相关数据集: ukr_pravda_titles_ukr（相同内容，但为乌克兰语）

数据结构

文章信息: 每篇文章包含文本和标题，以及经过掩码处理（所有数字替换为 "X"）的文本和标题。
相似文章索引: 相似文章的索引对应 ukr_pravda_2y 数据集中的 ID。

机器学习评估任务

任务描述: 从10个相似文章的掩码标题中选择正确的标题，label 列指示正确掩码标题的索引。

相似度计算

方法: 使用 spacy 的 CountVectorizer 构建二进制向量，通过余弦距离计算文章标签的相似度。
限制: 由于许多文章具有相同的标签，导致相似度计算可能不准确。

其他信息

项目背景: 此数据集用于硕士论文研究，后续将有更详细的文档。

5,000+

优质数据集

54 个

任务类型

进入经典数据集