zetavg/wikipedia_random_page_summaries_zh_tw_100k
收藏Hugging Face2023-04-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zetavg/wikipedia_random_page_summaries_zh_tw_100k
下载链接
链接失效反馈官方服务:
资源简介:
数据集wikipedia_random_page_summaries_zh_tw_100k包含维基百科的页面标题和摘要。页面标题(page_title)是维基百科的原始名称,可能是简体中文,而页面摘要(page_summary)则统一为台湾正体版本。使用了vinta/pangu工具来确保中英文之间有空格。该数据集由特定的GitHub笔记本生成。
数据集wikipedia_random_page_summaries_zh_tw_100k包含维基百科的页面标题和摘要。页面标题(page_title)是维基百科的原始名称,可能是简体中文,而页面摘要(page_summary)则统一为台湾正体版本。使用了vinta/pangu工具来确保中英文之间有空格。该数据集由特定的GitHub笔记本生成。
提供机构:
zetavg
原始信息汇总
数据集卡片 "wikipedia_random_page_summaries_zh_tw_100k"
数据集信息
特征
- page_title: 维基百科原始页面名称,数据类型为字符串。
- page_summary: 台湾正体版本的页面摘要,数据类型为字符串。
数据分割
- train: 训练集,包含39,701,385字节和99,977个样本。
数据大小
- 下载大小: 29,305,208字节
- 数据集大小: 39,701,385字节
数据集描述
page_title是维基百科原始的页面名称,可能是简体中文。page_summary则是台湾正体版本。- 使用了 vinta/pangu 来确保中英文之间都有加上空格。
- 由 https://github.com/zetavg/LLM-Research/blob/3b79836/Wikipedia_Random_Page_Summaries_Dataset_Generator.ipynb 生成。



