five

linux-cn/archive

收藏
Hugging Face2024-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/linux-cn/archive
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集为Linux中国原创技术文章和翻译技术文章的数据集,提供了文章标题、内容、作者、源地址、摘要、图片、标签、类别、访问量、评论数据等多个字段。数据集主要用于中文自然语言处理任务,涵盖了丰富的技术文章内容。

这个数据集为Linux中国原创技术文章和翻译技术文章的数据集,提供了文章标题、内容、作者、源地址、摘要、图片、标签、类别、访问量、评论数据等多个字段。数据集主要用于中文自然语言处理任务,涵盖了丰富的技术文章内容。
提供机构:
linux-cn
原始信息汇总

Linux 中国原创文章/译文数据集

数据集描述

  • 语言(NLP): 中文
  • 许可证: cc-by-nc-4.0

数据集结构

  • id: 文章ID
  • title: 文章标题
  • author: 文章作者
  • fromurl: 文章源地址(仅翻译类文章有)
  • summary: 总结
  • excerpt: 摘要
  • pic: 头图(缩略图版)
  • largepic: 头图(大图版)
  • titlepic: 是否有头图,可以渲染用
  • islctt: 是否是 LCTT 文章(翻译文章)
  • selector: 选题人员,值为 Github ID
  • translator: 翻译人员,值为 Github ID
  • reviewer: 校对人员,值为 Github ID
  • tags: 文档标签
  • category: 文档所属目录
  • count: 计数
    • viewnum: 访问量
    • commentnum: 评论量
    • favtimes: 收藏量
    • sharetimes: 分享量
    • likes: 喜欢量
  • comments_data: 评论数据
    • postip: 评论 IP
    • dateline: 评论时间
    • message: 评论内容
    • username: 评论名
    • repcids: 回复的评论的 ID
  • related: 相关文章的 ID
  • date: 发布日期
  • updated: 最后更新日期
  • permalink: 永久链接(Linux.cn 上的链接)
  • content: 文章内容

数据集联系

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集收录了 Linux 中国网站的原创和翻译技术文章,包含丰富的元数据如作者、标签、评论等,适用于自然语言处理和技术内容分析。数据集以 JSON 格式提供,适合用于研究中文技术文档的特点和模式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作