jdpressman/retro-text-style-transfer-v0.1
收藏Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jdpressman/retro-text-style-transfer-v0.1
下载链接
链接失效反馈官方服务:
资源简介:
Retro Textual Style Transfer v0.1数据集是一个用于文本风格转换任务的数据集,通过提供语言模型指令提示,将任务文本重写为与给定风格段落相似的文本。数据集基于pg19数据集中的公共领域文本,使用Mixtral Instruct生成任务段落,并通过模板组装成训练数据。数据集包含多个列,如title_author、prompt_open、style_passage、task_passage等,用于指导模型进行风格转换。数据集的主要用途是用于文本创作管道,使不同的LLM文本听起来相似。此外,数据集还包含一些潜在偏见,如包含过时或冒犯性内容,并计划通过未来的改进来缓解这些问题。
Retro Textual Style Transfer v0.1数据集是一个用于文本风格转换任务的数据集,通过提供语言模型指令提示,将任务文本重写为与给定风格段落相似的文本。数据集基于pg19数据集中的公共领域文本,使用Mixtral Instruct生成任务段落,并通过模板组装成训练数据。数据集包含多个列,如title_author、prompt_open、style_passage、task_passage等,用于指导模型进行风格转换。数据集的主要用途是用于文本创作管道,使不同的LLM文本听起来相似。此外,数据集还包含一些潜在偏见,如包含过时或冒犯性内容,并计划通过未来的改进来缓解这些问题。
提供机构:
jdpressman
原始信息汇总
Retro Textual Style Transfer v0.1 数据集概述
数据集描述
Retro Textual Style Transfer v0.1 数据集用于实现文本风格转换,通过提供一系列语言模型指令提示,将示例风格段落与任务文本结合,并重写任务文本以符合风格段落。该数据集基于公共领域文本构建,通过生成子语料库并使用模板组装成训练数据,从而为特定任务创建大量多样化的数据。
数据集内容
数据集包含以下内容:
- 语言模型指令提示:指导模型如何进行风格转换。
- 风格段落:模型需要从中提取风格的文本。
- 任务文本:模型需要重写的文本。
- 地真答案:用于指导模型如何将生成的任务文本转换为已知正确的文本。
数据结构
数据集每行包含九列:
- title_author:索引列,便于关联原始文本。
- prompt_open:初始指令。
- start_style:风格段落开始标记。
- style_passage:风格段落文本。
- end_style:风格段落结束标记。
- start_task:任务文本开始标记。
- task_passage:任务文本。
- end_task:任务文本结束标记。
- ground_truth:地真答案。
使用案例
- 文本作者身份管道:需要实现重写步骤,使不同部分的LLM文本风格一致。
- 口语转书面语:将口语转录文本转换为书面语。
- 风格转换:提供对基于风格学的去匿名化攻击的抵抗。
快速开始
python import datasets
style_transfer = datasets.load_dataset("jdpressman/retro-text-style-transfer-v0.1")
for row in style_transfer["train"]: print(row["prompt_open"], "
", row["start_style"], " ", row["style_passage"], " ", row["end_style"], "
", row["start_task"], " ", row["task_passage"], " ", row["end_task"], "
", row["ground_truth"])
许可证
该数据集基于公共领域数据构建,并采用Creative Commons Zero Public Domain Declaration许可证。
偏见与限制
数据集源自100多年前的书籍,可能包含过时或不恰当的思想。训练模型可能会倾向于在现代文本中引入这些古老的思想。此外,模型在将现代文本转换为古风方面可能表现更好。
计划改进
- 训练Mistral 7B LoRa模型
- 提供性能指标
- 改进索引阶段的提示
- 增强数据过滤
- 发布现代文本补充模块
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于文本风格转换的训练数据集,基于公共领域历史文本生成,通过指令提示和风格标记引导模型将任务文本重写以匹配给定风格段落的风格。数据集包含约4.9万行数据,旨在提升语言模型在文本重写和风格统一方面的能力,但需注意数据源自历史书籍,可能包含过时或偏差内容。
以上内容由遇见数据集搜集并总结生成



