Chord-Llama/chord_llama_dataset
收藏Hugging Face2024-04-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Chord-Llama/chord_llama_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练Chord Llama模型,该模型用于生成乐谱。数据集包含经过修改的MusicXML格式的条目,不能直接用于生成MusicXML。数据来源于Wikifonia和MScoreLib的第一部分,这些数据库原本是MusicXML格式。数据经过清理,包括移除不影响音乐意义的可读性内容、将各部分分离成单独文档、丢弃包含多个`<attributes>`元素的部分、将MusicXML转换为YAML格式以降低标记数量、根据Llama 2的上下文长度拆分文档、将`<attributes>`元素保存为`instruction`、将前半部分小节设置为输入、后半部分小节设置为输出。
该数据集用于训练Chord Llama模型,该模型用于生成乐谱。数据集包含经过修改的MusicXML格式的条目,不能直接用于生成MusicXML。数据来源于Wikifonia和MScoreLib的第一部分,这些数据库原本是MusicXML格式。数据经过清理,包括移除不影响音乐意义的可读性内容、将各部分分离成单独文档、丢弃包含多个`<attributes>`元素的部分、将MusicXML转换为YAML格式以降低标记数量、根据Llama 2的上下文长度拆分文档、将`<attributes>`元素保存为`instruction`、将前半部分小节设置为输入、后半部分小节设置为输出。
提供机构:
Chord-Llama
原始信息汇总
数据集概述
数据集名称
- 名称: Chord Llama Dataset
- 别名: 无
数据集描述
- 用途: 用于训练Chord Llama模型,该模型用于生成乐谱。
- 数据格式: 包含经过修改的MusicXML格式条目,不能直接用于生成MusicXML。
- 未来计划: 将发布一个经过微调的模型和接口。
数据来源
- 来源1: Wikifonia
- 来源2: MScoreLib(Part 1)
- 原始格式: 均为MusicXML格式
数据处理
- 清洗方法:
- 移除了所有增加可读性但不改变音乐意义的元素。
- 将所有部分分离成单独的文档。
- 丢弃了包含多个
<attributes>元素的部分。 - 使用
xmltodict库将MusicXML转换为YAML格式以减少令牌数。 - 如果YAML版本的文档数据超出Llama 2的上下文长度,则文档被分割。
- 将
<attributes>元素保存为instruction。 - 将前半部分设置为输入,后半部分设置为输出。
数据集规模
- 规模: 10K<n<100K
许可证
- 许可证: Apache-2.0
任务类别
- 任务类别: 文本生成
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



