five

THEATLAS/PENS

收藏
hugging_face2024-10-29 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/THEATLAS/PENS
下载链接
链接失效反馈
资源简介:
PENS(个性化新闻标题)是一个专为个性化新闻标题生成研究设计的英文数据集。该数据集分为训练集和测试集,以支持模型的开发和评估。训练集包含约113k篇英文新闻文章和来自超过445k用户的500k条印象日志,每篇新闻文章包括标题、正文、类别和相关实体。测试集由103名英语母语者手动创建,包含超过100k个个性化新闻标题。PENS通过安全哈希匿名化用户ID来保护用户隐私。

PENS (PErsonalized News headlineS) is an English dataset tailored for Personalized News Headline Generation research. The dataset is divided into training and test sets to support both model development and evaluation. The training set contains approximately 113k English news articles across 15 categories and 500k impression logs from over 445k users. Each news article includes a title, body, category, and associated entities. The test set, manually created by 103 native English speakers, includes over 100k personalized news headlines. PENS ensures user privacy by anonymizing user IDs through secure hashing.
提供机构:
THEATLAS
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录