five

BrunoHays/multilingual_librispeech_fr_punctuated

收藏
Hugging Face2024-03-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/BrunoHays/multilingual_librispeech_fr_punctuated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是*facebook/multilingual_librispeech*的法语部分,每个转录文本都经过了TheBloke/Nous-Hermes-2-Mixtral-8x7B-DPO-AWQ模型的修改(主要是添加标点符号),修改后的文本存储在punctuated_text键下。修改后的文本与原始文本通过jiwer进行了比较,CER值和最长修改序列的长度存储在longuest_modif键下,这两个值有助于选择未被LLM过度修改的转录文本。建议保留CER值低于0.04且最长修改序列长度小于4的样本。

该数据集是*facebook/multilingual_librispeech*的法语部分,每个转录文本都经过了TheBloke/Nous-Hermes-2-Mixtral-8x7B-DPO-AWQ模型的修改(主要是添加标点符号),修改后的文本存储在punctuated_text键下。修改后的文本与原始文本通过jiwer进行了比较,CER值和最长修改序列的长度存储在longuest_modif键下,这两个值有助于选择未被LLM过度修改的转录文本。建议保留CER值低于0.04且最长修改序列长度小于4的样本。
提供机构:
BrunoHays
原始信息汇总

数据集卡片 for Dataset Name

概述

该数据集包含 facebook/multilingual_librispeech 的法语部分。

数据处理

  • 每个转录文本都经过修改(主要是添加标点),使用 TheBloke/Nous-Hermes-2-Mixtral-8x7B-DPO-AWQ 模型,并根据以下提示进行处理:

    <|im_start|>system Tu es un système qui corrige les erreurs dun court texte. <|im_start|>user {} <|im_start|>assistant

  • 修改后的转录文本存储在 punctuated_text 键下。

  • 使用 jiwer 工具将 punctuated_text 与原始文本进行比较,计算出字符错误率(CER)和最长修改序列的长度,分别存储在 longuest_modif 键下。

  • 建议选择 CER 值小于 0.04 且最长修改序列长度小于 4 的样本。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作