shamotskyi/up_titles_masked_eng
收藏Hugging Face2024-02-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/shamotskyi/up_titles_masked_eng
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于ukr_pravda数据集,包含每篇文章的文本和标题,以及经过掩码处理的文本和标题(所有数字被替换为X)。数据集用于机器学习评估任务,提供10个相似文章的掩码标题供选择,其中一个是正确的,`label`列指向正确标题的索引。文章相似性通过简单的余弦距离计算,基于文章标签的二进制向量。尽管这种方法可能不够优化,因为许多文章具有完全相同的标签,导致相似性为1.0,但这是在硕士论文背景下进行的初步工作,未来会有更好的文档。
该数据集基于ukr_pravda数据集,包含每篇文章的文本和标题,以及经过掩码处理的文本和标题(所有数字被替换为X)。数据集用于机器学习评估任务,提供10个相似文章的掩码标题供选择,其中一个是正确的,`label`列指向正确标题的索引。文章相似性通过简单的余弦距离计算,基于文章标签的二进制向量。尽管这种方法可能不够优化,因为许多文章具有完全相同的标签,导致相似性为1.0,但这是在硕士论文背景下进行的初步工作,未来会有更好的文档。
提供机构:
shamotskyi
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: CC BY-NC 4.0
- 标签: 新闻
数据内容
- 来源: 基于 ukr_pravda 数据集
- 相关数据集: ukr_pravda_titles_ukr(相同内容,但为乌克兰语)
数据结构
- 文章信息: 每篇文章包含文本和标题,以及经过掩码处理(所有数字替换为 "X")的文本和标题。
- 相似文章索引: 相似文章的索引对应 ukr_pravda_2y 数据集中的 ID。
机器学习评估任务
- 任务描述: 从10个相似文章的掩码标题中选择正确的标题,
label列指示正确掩码标题的索引。
相似度计算
- 方法: 使用 spacy 的 CountVectorizer 构建二进制向量,通过余弦距离计算文章标签的相似度。
- 限制: 由于许多文章具有相同的标签,导致相似度计算可能不准确。
其他信息
- 项目背景: 此数据集用于硕士论文研究,后续将有更详细的文档。



