five

zetavg/wikipedia_random_page_summaries_zh_tw_100k

收藏
Hugging Face2023-04-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zetavg/wikipedia_random_page_summaries_zh_tw_100k
下载链接
链接失效反馈
官方服务:
资源简介:
数据集wikipedia_random_page_summaries_zh_tw_100k包含维基百科的页面标题和摘要。页面标题(page_title)是维基百科的原始名称,可能是简体中文,而页面摘要(page_summary)则统一为台湾正体版本。使用了vinta/pangu工具来确保中英文之间有空格。该数据集由特定的GitHub笔记本生成。

数据集wikipedia_random_page_summaries_zh_tw_100k包含维基百科的页面标题和摘要。页面标题(page_title)是维基百科的原始名称,可能是简体中文,而页面摘要(page_summary)则统一为台湾正体版本。使用了vinta/pangu工具来确保中英文之间有空格。该数据集由特定的GitHub笔记本生成。
提供机构:
zetavg
原始信息汇总

数据集卡片 "wikipedia_random_page_summaries_zh_tw_100k"

数据集信息

特征

  • page_title: 维基百科原始页面名称,数据类型为字符串。
  • page_summary: 台湾正体版本的页面摘要,数据类型为字符串。

数据分割

  • train: 训练集,包含39,701,385字节和99,977个样本。

数据大小

  • 下载大小: 29,305,208字节
  • 数据集大小: 39,701,385字节

数据集描述

  • page_title 是维基百科原始的页面名称,可能是简体中文。
  • page_summary 则是台湾正体版本。
  • 使用了 vinta/pangu 来确保中英文之间都有加上空格。
  • 由 https://github.com/zetavg/LLM-Research/blob/3b79836/Wikipedia_Random_Page_Summaries_Dataset_Generator.ipynb 生成。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作