linux-cn/archive
收藏Hugging Face2024-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/linux-cn/archive
下载链接
链接失效反馈官方服务:
资源简介:
这个数据集为Linux中国原创技术文章和翻译技术文章的数据集,提供了文章标题、内容、作者、源地址、摘要、图片、标签、类别、访问量、评论数据等多个字段。数据集主要用于中文自然语言处理任务,涵盖了丰富的技术文章内容。
这个数据集为Linux中国原创技术文章和翻译技术文章的数据集,提供了文章标题、内容、作者、源地址、摘要、图片、标签、类别、访问量、评论数据等多个字段。数据集主要用于中文自然语言处理任务,涵盖了丰富的技术文章内容。
提供机构:
linux-cn
原始信息汇总
Linux 中国原创文章/译文数据集
数据集描述
- 语言(NLP): 中文
- 许可证: cc-by-nc-4.0
数据集结构
- id: 文章ID
- title: 文章标题
- author: 文章作者
- fromurl: 文章源地址(仅翻译类文章有)
- summary: 总结
- excerpt: 摘要
- pic: 头图(缩略图版)
- largepic: 头图(大图版)
- titlepic: 是否有头图,可以渲染用
- islctt: 是否是 LCTT 文章(翻译文章)
- selector: 选题人员,值为 Github ID
- translator: 翻译人员,值为 Github ID
- reviewer: 校对人员,值为 Github ID
- tags: 文档标签
- category: 文档所属目录
- count: 计数
- viewnum: 访问量
- commentnum: 评论量
- favtimes: 收藏量
- sharetimes: 分享量
- likes: 喜欢量
- comments_data: 评论数据
- postip: 评论 IP
- dateline: 评论时间
- message: 评论内容
- username: 评论名
- repcids: 回复的评论的 ID
- related: 相关文章的 ID
- date: 发布日期
- updated: 最后更新日期
- permalink: 永久链接(Linux.cn 上的链接)
- content: 文章内容
数据集联系
- 联系人: bestony bestony@linux.com
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集收录了 Linux 中国网站的原创和翻译技术文章,包含丰富的元数据如作者、标签、评论等,适用于自然语言处理和技术内容分析。数据集以 JSON 格式提供,适合用于研究中文技术文档的特点和模式。
以上内容由遇见数据集搜集并总结生成



