five

chrislee973/llama3-conciser-dataset

收藏
Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/chrislee973/llama3-conciser-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个小型数据集,由我手动整理和注释,旨在生成更高质量、更易读的文字记录。它用于微调我的[conciser模型](https://huggingface.co/chrislee973/llama3-conciser)。数据集目前包含约50个段落,这些段落来自各种播客的文字记录,并经过轻微编辑以提高可读性。编辑包括去除填充词、拆分和重新排列长句、去除重复内容以及修饰看起来不自然的短语和句子。目标是最大化文字记录的可读性,同时最小化对说话者原意和意图的牺牲。我计划收集和注释更多示例,首先启动一个最小化的数据集以开始微调。

This is a small dataset Ive manually curated and annotated designed to make higher quality, more readable transcripts. It consists of approximately 50 examples of paragraphs taken from transcripts of various podcasts, lightly touched up to enhance readability. Edits include removing filler words, breaking up and rearranging long run-on sentences, and removing repetitions and touching up phrases and sentences that look weird in writing. The aim is to maximize the readability of a transcript while making minimal sacrifice of the speakers original meaning and intention. I intend to collect and annotate many more examples, but first wanted to bootstrap a minimal one to start finetuning.
提供机构:
chrislee973
原始信息汇总

Dataset Card for llama3-conciser-dataset

概述

这是一个由我手动整理和标注的小型数据集,旨在生成更高质量、更易读的转录文本。该数据集用于微调我的conciser模型。目前,数据集包含约50个示例,这些示例是从各种播客的转录文本中提取的段落,并经过轻微的编辑以增强可读性。

编辑示例

  • 删除填充词
  • 分解和重新排列长句
  • 删除重复内容并润色看起来不自然的短语和句子

目标

在尽量不牺牲说话者原始意义和意图的前提下,最大化转录文本的可读性。

未来计划

计划收集和标注更多示例,目前先创建一个最小化的数据集以开始微调。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作