five

mesolitica/malaysian-youtube-audio-instructions

收藏
Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/malaysian-youtube-audio-instructions
下载链接
链接失效反馈
官方服务:
资源简介:
马来西亚YouTube音频指令数据集是一个通过Whisper Large V3将语音转换为文本,并使用Mixtral Instruct生成多轮对话的数据集。该数据集包含293752行数据,文件大小为2.1 GB。示例数据展示了对话的上下文和内容,涉及加密货币投资和区块链技术管理等主题。

马来西亚YouTube音频指令数据集是一个通过Whisper Large V3将语音转换为文本,并使用Mixtral Instruct生成多轮对话的数据集。该数据集包含293752行数据,文件大小为2.1 GB。示例数据展示了对话的上下文和内容,涉及加密货币投资和区块链技术管理等主题。
提供机构:
mesolitica
原始信息汇总

Malaysian Youtube Audio Instructions 数据集概述

数据集信息

  • 文件名: mixtral-audio-instruction.jsonl
  • 行数: 293752 行
  • 大小: 2.1 GB

示例数据

数据集包含以下字段:

  • context: 上下文信息,例如:

    anda tahu keuntungan boleh lebih tinggi daripada keuntungan kewangan rumah maka saya tidak akan mencari dalam akaun saya akan mencari ke dalam ethereum atau beberapa crypto punks bergantung pada faktor risiko anda kerana rumah kajang dihantar tidak mengganggu dsr saya sejauh ini jadi sekarang apa posisi saya untuk mendapatkan kewangan ketiga jadi mungkin setelah melihat sekeliling saya menemui seorang penjual yang dapat menutupi perhubungan tetapi bank hanya menerima 70% dari itu saya boleh membayar perbezaan dengan menggunakan wang ini kerana sekali lagi ia menyusahkan saya dan aset tetapi jika anda tidak selesa dengan mencari

  • chat: 对话信息,包含多个对话轮次,每个轮次包含 rolecontent 字段,例如:

    [{role: user, content: Why might someone consider investing in cryptocurrencies like Ethereum instead of traditional financial investments such as real estate?, content_ms: Mengapakah seseorang mungkin mempertimbangkan untuk melabur dalam mata wang kripto seperti Ethereum dan bukannya pelaburan kewangan tradisional seperti hartanah?}, {role: assistant, content: There are several reasons why someone might consider investing in cryptocurrencies like Ethereum instead of traditional financial investments such as real estate:

  1. Potential for higher returns: Cryptocurrencies have the potential for much higher returns compared to traditional financial investments. While the real estate market can be profitable, the potential for exponential growth in the cryptocurrency market is significantly higher.
  2. Diversification: Investing in cryptocurrencies can provide a diversification benefit to an investment portfolio. By investing in a variety of assets, including cryptocurrencies, investors can spread their risk and potentially increase their overall returns.
  3. Liquidity: Cryptocurrencies are generally more liquid than real estate investments. It is easier to buy and sell cryptocurrencies, and they can be quickly converted into cash.
  4. Accessibility: Investing in cryptocurrencies is generally more accessible than investing in real estate. There are fewer barriers to entry, and it is easier to get started with a smaller amount of money.
  5. Decentralization: Cryptocurrencies are decentralized, meaning they are not controlled by any government or financial institution. This can provide a level of independence and autonomy that is not possible with traditional financial investments.

However, it is important to note that investing in cryptocurrencies is also riskier than traditional financial investments. The value of cryptocurrencies can be highly volatile, and there is a risk of losing all or a significant portion of the investment. Therefore, it is important to carefully consider your own risk tolerance and financial situation before investing in cryptocurrencies., content_ms: Terdapat beberapa sebab mengapa seseorang mungkin mempertimbangkan untuk melabur dalam mata wang kripto seperti Ethereum dan bukannya pelaburan kewangan tradisional seperti hartanah:

  1. Potensi untuk pulangan yang lebih tinggi: Mata wang kripto mempunyai potensi untuk pulangan yang lebih tinggi berbanding dengan pelaburan kewangan tradisional. Walaupun pasaran hartanah boleh menguntungkan, potensi pertumbuhan eksponen dalam pasaran mata wang kripto adalah jauh lebih tinggi.
  2. Kepelbagaian: Melabur dalam mata wang kripto boleh memberikan manfaat kepelbagaian kepada portfolio pelaburan. Dengan melabur dalam pelbagai aset, termasuk mata wang kripto, pelabur boleh menyebarkan risiko mereka dan berpotensi meningkatkan pulangan keseluruhan mereka.
  3. Kecairan: Mata wang kripto biasanya lebih cair daripada pelaburan hartanah. Lebih mudah untuk membeli dan menjual mata wang kripto, dan ia boleh ditukar dengan cepat kepada wang tunai.
  4. Kebolehcapaian: Melabur dalam mata wang kripto secara umumnya lebih mudah diakses daripada melabur dalam hartanah. Terdapat lebih sedikit halangan untuk masuk, dan lebih mudah untuk bermula dengan jumlah wang yang lebih kecil.
  5. Desentralisasi: Mata wang kripto adalah terdesentralisasi, bermakna ia tidak dikawal oleh mana-mana kerajaan atau institusi kewangan. Ini boleh memberikan tahap kebebasan dan autonomi yang tidak mungkin dilakukan dengan pelaburan kewangan tradisional.

Walau bagaimanapun, adalah penting untuk ambil perhatian bahawa melabur dalam mata wang kripto juga lebih berisiko daripada pelaburan kewangan tradisional. Nilai mata wang kripto boleh menjadi sangat tidak menentu, dan terdapat risiko kehilangan semua atau sebahagian besar pelaburan. Oleh itu, adalah penting untuk mempertimbangkan dengan teliti toleransi risiko dan keadaan kewangan anda sendiri sebelum melabur dalam mata wang kripto.}, {role: user, content: mengapa orang menggunakan blockchain untuk mengurus siasia digital, content_ms: mengapa orang menggunakan blockchain untuk menguruskan sisa digital}, {role: assistant, content: There are several reasons why people use blockchain technology to manage digital assets:

  1. Security: Blockchain technology provides a high level of security for managing digital assets. The decentralized nature of blockchain makes it difficult for hackers to manipulate or steal digital assets.
  2. Transparency: Blockchain provides a transparent record of all transactions related to a digital asset. This makes it easier to track ownership and verify the authenticity of the asset.
  3. Accessibility: Blockchain technology allows for the easy transfer and management of digital assets, making them accessible to anyone with an internet connection.
  4. Immutability: Once data is recorded on a blockchain, it cannot be altered or deleted. This ensures that the record of ownership and transactions related to a digital asset is permanent and cannot be tampered with.
  5. Programmability: Blockchain technology allows for the creation of smart contracts, which are self-executing contracts with the terms of the agreement directly written into code. This enables automatic and secure transfer of digital assets based on predefined conditions.
  6. Interoperability: Blockchain technology enables the interoperability of different digital assets and systems, allowing for seamless transfer and exchange of value.

Overall, the use of blockchain technology for managing digital assets provides a secure, transparent, and decentralized system that is accessible to anyone with an internet connection. This makes it an attractive solution for managing various types of digital assets, including cryptocurrencies, digital art, and other digital assets., content_ms: Terdapat beberapa sebab mengapa orang menggunakan teknologi blockchain untuk mengurus aset digital:

  1. Keselamatan: Teknologi Blockchain menyediakan tahap keselamatan yang tinggi untuk mengurus aset digital. Sifat blockchain yang tidak berpusat menyukarkan penggodam untuk memanipulasi atau mencuri aset digital.
  2. Ketelusan: Blockchain menyediakan rekod yang telus bagi semua transaksi yang berkaitan dengan aset digital. Ini memudahkan untuk menjejak pemilikan dan mengesahkan ketulenan aset.
  3. Kebolehcapaian: Teknologi Blockchain membolehkan pemindahan dan pengurusan aset digital dengan mudah, menjadikannya boleh diakses oleh sesiapa sahaja yang mempunyai sambungan internet.
  4. Ketidakbolehubahan: Setelah data direkodkan pada rantaian blok, ia tidak boleh diubah atau dipadamkan. Ini memastikan rekod pemilikan dan transaksi yang berkaitan dengan aset digital adalah kekal dan tidak boleh diusik.
  5. Kebolehprograman: Teknologi Blockchain membolehkan penciptaan kontrak pintar, yang merupakan kontrak yang dilaksanakan sendiri dengan syarat perjanjian yang ditulis terus ke dalam kod. Ini membolehkan pemindahan aset digital secara automatik dan selamat berdasarkan syarat yang telah ditetapkan.
  6. Saling kendali: Teknologi Blockchain membolehkan kesalingoperasian aset dan sistem digital yang berbeza, membolehkan pemindahan dan pertukaran nilai yang lancar.

Secara keseluruhannya, penggunaan teknologi blockchain untuk mengurus aset digital menyediakan sistem yang selamat, telus dan terpencar yang boleh diakses oleh sesiapa sahaja yang mempunyai sambungan internet. Ini menjadikannya penyelesaian yang menarik untuk mengurus pelbagai jenis aset digital, termasuk mata wang kripto, seni digital dan aset digital lain.}]

  • filename: 文件名,例如:

    output-audio/1-0-0.mp3

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理与语音交互领域,高质量的多模态指令数据集对于提升模型理解能力至关重要。Malaysian Youtube Audio Instructions 数据集正是基于这一需求构建而成。其构建流程首先从马来西亚语YouTube视频中提取原始音频,随后利用Whisper Large V3模型将语音转录为文本,再通过Mixtral Instruct模型生成多轮对话形式的指令数据。最终整合为包含上下文、多轮对话及音频文件名的结构化JSON格式,共收录293,752条样本,总容量达2.1 GB。
特点
该数据集的核心特色在于其多模态与多轮对话的深度融合。每条数据不仅包含语音转录的文本上下文,还精心设计了用户与助手的交替对话,覆盖金融、科技等多元话题,且对话内容以马来语和英语双语呈现。这种结构使得数据集能够同时支持语音识别、机器翻译及对话生成等任务的训练与评估。此外,数据来源于真实的YouTube音频,确保了内容的自然性与多样性,为构建鲁棒性更强的马来语语音交互系统提供了坚实基础。
使用方法
使用该数据集时,研究者可直接加载JSON文件,通过'context'字段获取语音转录文本,利用'chat'字段提取多轮对话历史,并借助'filename'字段关联原始音频文件。典型应用场景包括微调语音-文本多模态模型、训练指令遵循型对话系统,或作为马来语跨语言迁移学习的基准数据。建议结合配套的GitHub仓库(mesolitica/malaysian-dataset)中的处理脚本,实现数据的分批加载与格式适配,以高效集成至主流深度学习框架中。
背景与挑战
背景概述
在自然语言处理领域,多语言语音指令数据集的建设是推动跨语言人机交互技术发展的关键。由马来西亚研究团队mesolitica于近年构建的malaysian-youtube-audio-instructions数据集,旨在填补马来语语音识别与多轮对话生成的空白。该数据集依托Whisper Large V3模型将YouTube马来语音频转录为文本,并借助Mixtral Instruct模型生成多轮对话指令,核心研究问题聚焦于如何利用大规模弱监督学习实现低资源语言的语音到文本转换及对话系统优化。其发布为马来语语音交互研究提供了约29万条高质量样本,显著推动了东南亚语言在智能助手、语音搜索等场景的应用潜力。
当前挑战
该数据集面临的核心挑战包括:1)领域问题层面,马来语作为低资源语言,语音识别准确率受限于音频质量、口音多样性及领域术语的稀疏性,同时多轮对话生成需平衡语义连贯性与指令的实用性,避免因机器翻译误差导致信息失真;2)构建过程中,从YouTube海量音频中筛选有效语音片段面临噪声过滤与时长分割难题,Whisper模型在马来语上的转录错误可能被级联放大至对话生成阶段,此外Mixtral Instruct生成的多轮对话需人工校验以确保指令逻辑自洽,数据规模与质量之间的权衡成为关键瓶颈。
常用场景
经典使用场景
该数据集以马来西亚语语音识别与多轮对话生成为核心,通过Whisper Large V3将YouTube音频转录为文本,并借助Mixtral Instruct模型生成结构化多轮对话。其经典使用场景在于构建低资源语言(如马来语)的语音交互系统,研究人员可基于此数据集训练端到端的语音转文本与对话理解模型,尤其适用于需要从非结构化音频中提取语义信息并生成连贯问答对的场景。数据集提供的上下文-对话对形式,为跨模态学习与语音驱动的对话系统研发提供了标准化基准。
解决学术问题
该数据集主要解决了低资源语言在语音-文本多模态对话研究中的数据匮乏问题。传统语音对话数据集多集中于英语等高资源语言,而马来语等语言的语音标注和对话数据极为稀缺。通过自动化流水线生成大规模多轮对话样本,该数据集为语音识别、对话状态追踪及跨语言语义对齐等学术任务提供了可复现的实验基础。其意义在于推动了多语言语音对话系统的公平性研究,并验证了教师模型(如Whisper和Mixtral)在数据蒸馏中的有效性,为后续低资源语音NLP研究奠定了方法论基础。
衍生相关工作
该数据集衍生了一系列面向低资源语言语音对话的经典工作。研究者常将其作为基准,对比不同语音编码器(如HuBERT、Wav2Vec2)与语言模型(如Llama、BLOOM)在马来语对话生成上的性能。此外,基于该数据集的微调工作探索了音频提示工程与多任务学习范式,例如联合优化语音识别与对话生成损失函数。在应用层面,衍生工作包括开发马来西亚语语音驱动的问答系统,以及利用数据增强技术(如噪声注入、语速调整)提升模型鲁棒性。这些工作共同推动了东南亚语言语音NLP的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作