MichielBuisman/Leesplank_NL_wikipedia_veringewikkelderingen
收藏Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/MichielBuisman/Leesplank_NL_wikipedia_veringewikkelderingen
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含不同风格的荷兰语维基百科段落的变体,基于另一个数据集的简化结果列生成。使用GPT4-1106-preview模型,通过特定的系统提示生成了这些变体,包括使用特定术语、政府机构用语、古语、技术用语、学术用语和诗意的语言风格。数据集还计划在未来增加更多类型的复杂化变体,但目前受限于模型的输出长度限制。
该数据集包含不同风格的荷兰语维基百科段落的变体,基于另一个数据集的简化结果列生成。使用GPT4-1106-preview模型,通过特定的系统提示生成了这些变体,包括使用特定术语、政府机构用语、古语、技术用语、学术用语和诗意的语言风格。数据集还计划在未来增加更多类型的复杂化变体,但目前受限于模型的输出长度限制。
提供机构:
MichielBuisman
原始信息汇总
数据集概述
数据集名称
- UWV Leesplank NL Wikipedia Veringewikkelderingen
数据集内容
- 包含不同风格的维基百科段落变体。
- 基于另一个数据集(UWV/Leesplank_NL_wikipedia_simplifications)中的简化结果列。
生成方法
- 使用GPT4-1106-preview模型生成。
- 系统提示要求生成更复杂的荷兰语文本,采用以下类型的文本修改:
- 术语(特定上下文术语)
- 官方语言(政府机构、正式文件中使用)
- 古语(古老、旧)
- 技术语言使用(技术性)
- 学术语言使用(学术、研究、教育)
- 诗意语言使用(诗意、文学)
- 输出格式为有效的JSON结构。
数据集结构
- 包含原始文本、简化版本以及通过GPT4生成的各种风格文本。
未来计划
- 计划在获得资金后,基于荷兰维基百科简化版完成剩余的复杂化类型,包括成语、抽象、被动、讽刺与嘲笑、新词与流行词。



