BrunoHays/multilingual_librispeech_fr_punctuated
收藏Hugging Face2024-03-10 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/BrunoHays/multilingual_librispeech_fr_punctuated
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是*facebook/multilingual_librispeech*的法语部分,每个转录文本都经过了TheBloke/Nous-Hermes-2-Mixtral-8x7B-DPO-AWQ模型的修改(主要是添加标点符号),修改后的文本存储在punctuated_text键下。修改后的文本与原始文本通过jiwer进行了比较,CER值和最长修改序列的长度存储在longuest_modif键下,这两个值有助于选择未被LLM过度修改的转录文本。建议保留CER值低于0.04且最长修改序列长度小于4的样本。
该数据集是*facebook/multilingual_librispeech*的法语部分,每个转录文本都经过了TheBloke/Nous-Hermes-2-Mixtral-8x7B-DPO-AWQ模型的修改(主要是添加标点符号),修改后的文本存储在punctuated_text键下。修改后的文本与原始文本通过jiwer进行了比较,CER值和最长修改序列的长度存储在longuest_modif键下,这两个值有助于选择未被LLM过度修改的转录文本。建议保留CER值低于0.04且最长修改序列长度小于4的样本。
提供机构:
BrunoHays
原始信息汇总
数据集卡片 for Dataset Name
概述
该数据集包含 facebook/multilingual_librispeech 的法语部分。
数据处理
-
每个转录文本都经过修改(主要是添加标点),使用 TheBloke/Nous-Hermes-2-Mixtral-8x7B-DPO-AWQ 模型,并根据以下提示进行处理:
<|im_start|>system Tu es un système qui corrige les erreurs dun court texte. <|im_start|>user {} <|im_start|>assistant
-
修改后的转录文本存储在
punctuated_text键下。 -
使用
jiwer工具将punctuated_text与原始文本进行比较,计算出字符错误率(CER)和最长修改序列的长度,分别存储在longuest_modif键下。 -
建议选择 CER 值小于 0.04 且最长修改序列长度小于 4 的样本。



