five

shamotskyi/up_titles_masked_eng

收藏
Hugging Face2024-02-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/shamotskyi/up_titles_masked_eng
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于ukr_pravda数据集,包含每篇文章的文本和标题,以及经过掩码处理的文本和标题(所有数字被替换为X)。数据集用于机器学习评估任务,提供10个相似文章的掩码标题供选择,其中一个是正确的,`label`列指向正确标题的索引。文章相似性通过简单的余弦距离计算,基于文章标签的二进制向量。尽管这种方法可能不够优化,因为许多文章具有完全相同的标签,导致相似性为1.0,但这是在硕士论文背景下进行的初步工作,未来会有更好的文档。

该数据集基于ukr_pravda数据集,包含每篇文章的文本和标题,以及经过掩码处理的文本和标题(所有数字被替换为X)。数据集用于机器学习评估任务,提供10个相似文章的掩码标题供选择,其中一个是正确的,`label`列指向正确标题的索引。文章相似性通过简单的余弦距离计算,基于文章标签的二进制向量。尽管这种方法可能不够优化,因为许多文章具有完全相同的标签,导致相似性为1.0,但这是在硕士论文背景下进行的初步工作,未来会有更好的文档。
提供机构:
shamotskyi
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: CC BY-NC 4.0
  • 标签: 新闻

数据内容

  • 来源: 基于 ukr_pravda 数据集
  • 相关数据集: ukr_pravda_titles_ukr(相同内容,但为乌克兰语)

数据结构

  • 文章信息: 每篇文章包含文本和标题,以及经过掩码处理(所有数字替换为 "X")的文本和标题。
  • 相似文章索引: 相似文章的索引对应 ukr_pravda_2y 数据集中的 ID。

机器学习评估任务

  • 任务描述: 从10个相似文章的掩码标题中选择正确的标题,label 列指示正确掩码标题的索引。

相似度计算

  • 方法: 使用 spacy 的 CountVectorizer 构建二进制向量,通过余弦距离计算文章标签的相似度。
  • 限制: 由于许多文章具有相同的标签,导致相似度计算可能不准确。

其他信息

  • 项目背景: 此数据集用于硕士论文研究,后续将有更详细的文档。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作