LimYeri/LeetCode_YouTube_CC
收藏Hugging Face2024-05-31 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LimYeri/LeetCode_YouTube_CC
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为LeetCode信息与YouTube字幕,主要包含LeetCode问题和YouTube字幕的信息。原始数据来自LimYeri/leetcode_with_youtube_captions,经过处理去除了重复句子和不必要的字符串。数据集的特征包括id、content、title、title_slug、question_content、question_hints、tag、level和similar_question_ids。数据集的大小为177,847,656字节,包含17,843个示例。
本数据集命名为LeetCode题目与YouTube字幕数据集,主要收录LeetCode题目及YouTube字幕相关信息。原始数据源为LimYeri/leetcode_with_youtube_captions,经预处理后已剔除重复语句与冗余字符串。数据集包含的字段包括id、content、title、title_slug、question_content、question_hints、tag、level与similar_question_ids。该数据集总容量为177,847,656字节,共包含17,843条数据样本。
提供机构:
LimYeri
原始信息汇总
数据集概述
基本信息
- 名称: LeetCode Information & YouTube Captions
- 语言: 英语
- 许可证: MIT
- 大小: 10K<n<100K
- 任务类别:
- 文本分类
- 文本生成
- 标签: 代码
数据集特征
- id: 整数类型
- content: 字符串类型
- title: 字符串类型
- title_slug: 字符串类型
- question_content: 字符串类型
- question_hints: 字符串类型
- tag: 字符串类型
- level: 字符串类型
- similar_question_ids: 字符串类型
数据集分割
- 训练集:
- 字节数: 177847656
- 示例数: 17843
- 下载大小: 80157945
- 数据集大小: 177847656
配置
- 默认配置:
- 数据文件路径:
data/train-*
- 数据文件路径:



