kwaikeg/Kuaipedia
收藏Hugging Face2023-11-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kwaikeg/Kuaipedia
下载链接
链接失效反馈官方服务:
资源简介:
Kuaipedia是由KwaiKEG与HIT和HKUST合作开发的世界首个大规模多模态短视频百科全书。其基本单元包括项目、方面和短视频。项目是一组实体和概念,如柴犬、月亮和伽利略·伽利莱,可以像维基百科页面一样编辑。方面是附加在项目上的关键词或关键短语,用于描述项目的特定方面。短视频是时长不超过5分钟的视频,主要关注知识视频,包括事实知识、科学知识和技能知识。数据集包含超过2600万个项目、250万个方面和2亿个短视频。
Kuaipedia is the world's first large-scale multimodal short video encyclopedia jointly developed by KwaiKEG, HIT and HKUST. Its basic units include items, aspects and short videos. Items refer to a set of entities and concepts such as Shiba Inu, Moon, and Galileo Galilei, which can be edited just like Wikipedia pages. Aspects are keywords or key phrases attached to items to describe their specific aspects. Short videos are those with a duration of no more than 5 minutes, mainly focusing on knowledge-oriented content including factual knowledge, scientific knowledge and skill knowledge. The dataset contains over 26 million items, 2.5 million aspects and 200 million short videos.
提供机构:
kwaikeg
原始信息汇总
数据集概述
Kuaipedia 是由 KwaiKEG 与 HIT 和 HKUST 合作开发的世界首个大规模多模态短视频百科全书。该数据集的基本单元包括条目(Items)、方面(Aspects)和短视频(Videos)。
条目(Items)
- 包括实体和概念,如柴犬、月亮和伽利略·伽利莱等。
- 每个条目可能包含标题、副标题、摘要、属性及其他详细信息。
方面(Aspects)
- 附属于条目的关键词或关键短语,用于描述条目的特定方面。
- 例如,柴犬的“选择”、“食物保护”、“颜色”或月亮的“形成”、“表面条件”、“如何绘制”。
视频(Videos)
- 一组时长不超过5分钟的短视频。
- 重点关注检测到的知识视频,定义如下:
- Know-what:关于事实的知识。
- Know-why:关于自然原则和定律的科学知识。
- Know-how:技能或做某事的能力。
数据统计
| Full Dump | Subset Dump | |
|---|---|---|
| #Items | > 26 million | 51,702 |
| #Aspects | > 2.5 million | 1,074,539 |
| #Videos | > 200 million | 769,096 |
模型比较结果
| Model | Item P | Item R | Item-Aspect P | Item-Aspect R |
|---|---|---|---|---|
| Random | 87.7 | 49.8 | 36.4 | 49.6 |
| LR | 90.4 | 68.3 | 55.1 | 2.7 |
| T5-small | 93.7 | 76.1 | 79.3 | 58.5 |
| BERT-base | 94.3 | 77.8 | 81.5 | 62.7 |
| GPT-3.5 | 90.5 | 86.4 | 41.8 | 95.7 |
| Ours | 94.7 | 79.7 | 83.0 | 65.7 |



