five

MichielBuisman/Leesplank_NL_wikipedia_veringewikkelderingen

收藏
Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/MichielBuisman/Leesplank_NL_wikipedia_veringewikkelderingen
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含不同风格的荷兰语维基百科段落的变体,基于另一个数据集的简化结果列生成。使用GPT4-1106-preview模型,通过特定的系统提示生成了这些变体,包括使用特定术语、政府机构用语、古语、技术用语、学术用语和诗意的语言风格。数据集还计划在未来增加更多类型的复杂化变体,但目前受限于模型的输出长度限制。

该数据集包含不同风格的荷兰语维基百科段落的变体,基于另一个数据集的简化结果列生成。使用GPT4-1106-preview模型,通过特定的系统提示生成了这些变体,包括使用特定术语、政府机构用语、古语、技术用语、学术用语和诗意的语言风格。数据集还计划在未来增加更多类型的复杂化变体,但目前受限于模型的输出长度限制。
提供机构:
MichielBuisman
原始信息汇总

数据集概述

数据集名称

  • UWV Leesplank NL Wikipedia Veringewikkelderingen

数据集内容

  • 包含不同风格的维基百科段落变体。
  • 基于另一个数据集(UWV/Leesplank_NL_wikipedia_simplifications)中的简化结果列。

生成方法

  • 使用GPT4-1106-preview模型生成。
  • 系统提示要求生成更复杂的荷兰语文本,采用以下类型的文本修改:
    • 术语(特定上下文术语)
    • 官方语言(政府机构、正式文件中使用)
    • 古语(古老、旧)
    • 技术语言使用(技术性)
    • 学术语言使用(学术、研究、教育)
    • 诗意语言使用(诗意、文学)
  • 输出格式为有效的JSON结构。

数据集结构

  • 包含原始文本、简化版本以及通过GPT4生成的各种风格文本。

未来计划

  • 计划在获得资金后,基于荷兰维基百科简化版完成剩余的复杂化类型,包括成语、抽象、被动、讽刺与嘲笑、新词与流行词。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作