five

abid/vice-id-dataset

收藏
Hugging Face2024-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/abid/vice-id-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Vice Indonesia档案集,收录了Vice Indonesia至2024年关闭前的所有文章。该数据集保存了Vice Indonesia独特的报道视角,便于未来分析使用。数据集包含id、类型、标题、发布日期、网址、内容HTML格式、内容Markdown格式、主题、摘要和贡献者等字段。贡献者字段以JSON格式详细记录了角色和贡献者信息。

Vice Indonesia档案集,收录了Vice Indonesia至2024年关闭前的所有文章。该数据集保存了Vice Indonesia独特的报道视角,便于未来分析使用。数据集包含id、类型、标题、发布日期、网址、内容HTML格式、内容Markdown格式、主题、摘要和贡献者等字段。贡献者字段以JSON格式详细记录了角色和贡献者信息。
提供机构:
abid
原始信息汇总

Vice Indonesia Archive (Arsip Vice Indonesia)

概述

Vice Indonesia Archive 是一个包含 Vice Indonesia 直至2024年关闭的所有文章的数据集。该数据集保留了 Vice Indonesia 独特的报道视角,以便未来进行分析。

数据集大小

  • 10K<n<100K

数据集标签

  • news
  • journalism
  • alternative-media

数据集列信息

名称 类型 描述
id string
type string 仅包含文章
title string
publish_date timestamp
url string
content_html text 以HTML格式呈现的内容
content_md text 以Markdown格式呈现的内容
topic string null
summary string 文章摘要
contributors string of JSON 贡献者信息(见下文)

贡献者格式

示例数据: json [ { "role_id": "...", "role": "...", "contributor": { "full_name": "...", "id": "...", "slug": "...", "public_url": "...", "__typename": "Contributor" }, "__typename": "Contribution" }, ... ]

爬虫脚本

爬虫脚本地址:https://github.com/famasya/vice-crawling

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作