KaggleMasterX/DPO_Data_Top5K
收藏Hugging Face2024-05-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/KaggleMasterX/DPO_Data_Top5K
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含科学文献的相关信息,主要字段包括文献的唯一标识符(bibcode)、摘要(abstract)、标题(title)、发表年份(year)、阅读次数(read_count)、引用次数(citation_count)、关键词(keyword)、PDF链接(PDF_link_url)等。此外,还包含一些衍生字段,如对数阅读次数(log_read_count)、潜在阅读次数(latent_readcount)、对数引用次数(log_cite_count)等。数据集主要用于分析科学文献的阅读和引用行为,可能用于研究文献的影响力、读者兴趣等。
该数据集包含科学文献的相关信息,主要字段包括文献的唯一标识符(bibcode)、摘要(abstract)、标题(title)、发表年份(year)、阅读次数(read_count)、引用次数(citation_count)、关键词(keyword)、PDF链接(PDF_link_url)等。此外,还包含一些衍生字段,如对数阅读次数(log_read_count)、潜在阅读次数(latent_readcount)、对数引用次数(log_cite_count)等。数据集主要用于分析科学文献的阅读和引用行为,可能用于研究文献的影响力、读者兴趣等。
提供机构:
KaggleMasterX
原始信息汇总
数据集概述
数据集特征
- bibcode: 字符串类型
- abstract: 字符串类型
- id: 整数类型(int64)
- title: 字符串类型
- year: 整数类型(int64)
- read_count: 整数类型(int64)
- cite_read_boost: 浮点数类型(float64)
- citation_count: 整数类型(int64)
- keyword: 字符串类型
- PDF_link_url: 字符串类型
- log_read_count: 浮点数类型(float64)
- latent_readcount: 浮点数类型(float64)
- log_cite_count: 浮点数类型(float64)
- latent_cite_count: 浮点数类型(float64)
- log_crb_count: 浮点数类型(float64)
- latent_crb_count: 浮点数类型(float64)
- clickbait: 整数类型(int64)
- tempread: 浮点数类型(float64)
- tempcit: 浮点数类型(float64)
- decision: 浮点数类型(float64)
- selected_title: 字符串类型
- rejected_title: 字符串类型
数据集划分
- train:
- 数据量: 8612823字节
- 示例数量: 5000
数据集大小
- 下载大小: 4667811字节
- 数据集大小: 8612823字节



