five

Chord-Llama/chord_llama_dataset

收藏
Hugging Face2024-04-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Chord-Llama/chord_llama_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于训练Chord Llama模型,该模型用于生成乐谱。数据集包含经过修改的MusicXML格式的条目,不能直接用于生成MusicXML。数据来源于Wikifonia和MScoreLib的第一部分,这些数据库原本是MusicXML格式。数据经过清理,包括移除不影响音乐意义的可读性内容、将各部分分离成单独文档、丢弃包含多个`<attributes>`元素的部分、将MusicXML转换为YAML格式以降低标记数量、根据Llama 2的上下文长度拆分文档、将`<attributes>`元素保存为`instruction`、将前半部分小节设置为输入、后半部分小节设置为输出。

该数据集用于训练Chord Llama模型,该模型用于生成乐谱。数据集包含经过修改的MusicXML格式的条目,不能直接用于生成MusicXML。数据来源于Wikifonia和MScoreLib的第一部分,这些数据库原本是MusicXML格式。数据经过清理,包括移除不影响音乐意义的可读性内容、将各部分分离成单独文档、丢弃包含多个`<attributes>`元素的部分、将MusicXML转换为YAML格式以降低标记数量、根据Llama 2的上下文长度拆分文档、将`<attributes>`元素保存为`instruction`、将前半部分小节设置为输入、后半部分小节设置为输出。
提供机构:
Chord-Llama
原始信息汇总

数据集概述

数据集名称

  • 名称: Chord Llama Dataset
  • 别名: 无

数据集描述

  • 用途: 用于训练Chord Llama模型,该模型用于生成乐谱。
  • 数据格式: 包含经过修改的MusicXML格式条目,不能直接用于生成MusicXML。
  • 未来计划: 将发布一个经过微调的模型和接口。

数据来源

  • 来源1: Wikifonia
  • 来源2: MScoreLib(Part 1)
  • 原始格式: 均为MusicXML格式

数据处理

  • 清洗方法:
    • 移除了所有增加可读性但不改变音乐意义的元素。
    • 将所有部分分离成单独的文档。
    • 丢弃了包含多个<attributes>元素的部分。
    • 使用xmltodict库将MusicXML转换为YAML格式以减少令牌数。
    • 如果YAML版本的文档数据超出Llama 2的上下文长度,则文档被分割。
    • <attributes>元素保存为instruction
    • 将前半部分设置为输入,后半部分设置为输出。

数据集规模

  • 规模: 10K<n<100K

许可证

  • 许可证: Apache-2.0

任务类别

  • 任务类别: 文本生成
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作