abid/vice-id-dataset
收藏Hugging Face2024-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/abid/vice-id-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Vice Indonesia档案集,收录了Vice Indonesia至2024年关闭前的所有文章。该数据集保存了Vice Indonesia独特的报道视角,便于未来分析使用。数据集包含id、类型、标题、发布日期、网址、内容HTML格式、内容Markdown格式、主题、摘要和贡献者等字段。贡献者字段以JSON格式详细记录了角色和贡献者信息。
Vice Indonesia档案集,收录了Vice Indonesia至2024年关闭前的所有文章。该数据集保存了Vice Indonesia独特的报道视角,便于未来分析使用。数据集包含id、类型、标题、发布日期、网址、内容HTML格式、内容Markdown格式、主题、摘要和贡献者等字段。贡献者字段以JSON格式详细记录了角色和贡献者信息。
提供机构:
abid
原始信息汇总
Vice Indonesia Archive (Arsip Vice Indonesia)
概述
Vice Indonesia Archive 是一个包含 Vice Indonesia 直至2024年关闭的所有文章的数据集。该数据集保留了 Vice Indonesia 独特的报道视角,以便未来进行分析。
数据集大小
- 10K<n<100K
数据集标签
- news
- journalism
- alternative-media
数据集列信息
| 名称 | 类型 | 描述 |
|---|---|---|
| id | string | |
| type | string | 仅包含文章 |
| title | string | |
| publish_date | timestamp | |
| url | string | |
| content_html | text | 以HTML格式呈现的内容 |
| content_md | text | 以Markdown格式呈现的内容 |
| topic | string | null |
| summary | string | 文章摘要 |
| contributors | string of JSON | 贡献者信息(见下文) |
贡献者格式
示例数据: json [ { "role_id": "...", "role": "...", "contributor": { "full_name": "...", "id": "...", "slug": "...", "public_url": "...", "__typename": "Contributor" }, "__typename": "Contribution" }, ... ]
爬虫脚本
爬虫脚本地址:https://github.com/famasya/vice-crawling



