adamjweintraut/kwsylchunk
收藏Hugging Face2024-04-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/adamjweintraut/kwsylchunk
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含歌曲的元信息,主要特征包括歌曲ID、标题、歌词、流派、清理后的歌词、歌词摘要、主题、歌词块编号、音节、关键词、原始文本、目标文本和目标文本的单词数。数据集被分为训练集、测试集和验证集,分别包含28382、3708和3890个样本。
该数据集包含歌曲的元信息,主要特征包括歌曲ID、标题、歌词、流派、清理后的歌词、歌词摘要、主题、歌词块编号、音节、关键词、原始文本、目标文本和目标文本的单词数。数据集被分为训练集、测试集和验证集,分别包含28382、3708和3890个样本。
提供机构:
adamjweintraut
原始信息汇总
数据集概述
数据集特征
- midi_id: 字符串类型
- song_title: 字符串类型
- lyrics: 字符串类型
- genre: 字符串类型
- clean_lyrics: 字符串类型
- lyric_summary_bartv2: 字符串类型
- topic: 字符串类型
- lyric_chunk_n: 整数类型
- sylls: 字符串序列类型
- keywords: 字符串序列类型
- orig: 字符串类型
- target: 字符串类型
- target_n_words: 整数类型
数据集分割
- 训练集:
- 字节数: 73598706
- 示例数: 28382
- 测试集:
- 字节数: 9734765
- 示例数: 3708
- 验证集:
- 字节数: 9994025
- 示例数: 3890
数据集大小
- 下载大小: 15567449字节
- 数据集总大小: 93327496字节
配置文件
- 默认配置:
- 训练集路径: data/train-*
- 测试集路径: data/test-*
- 验证集路径: data/valid-*



