five

UWV/veringewikkelderingen

收藏
Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/UWV/veringewikkelderingen
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含不同风格的荷兰语维基百科段落的变体,基于另一个数据集的简化结果列生成。数据集使用GPT4-1106-preview模型生成,系统提示要求生成更复杂的荷兰语文本版本,包括特定术语、政府机构用语、古语、技术用语、学术用语和诗用语。数据集还包含原始维基百科文本、简化版本以及通过GPT4生成的改写版本。

该数据集包含不同风格的荷兰语维基百科段落的变体,基于另一个数据集的简化结果列生成。数据集使用GPT4-1106-preview模型生成,系统提示要求生成更复杂的荷兰语文本版本,包括特定术语、政府机构用语、古语、技术用语、学术用语和诗用语。数据集还包含原始维基百科文本、简化版本以及通过GPT4生成的改写版本。
提供机构:
UWV
原始信息汇总

数据集概述

数据集名称

UWV Leesplank NL Wikipedia Veringewikkelderingen

数据集内容

本数据集包含一系列不同风格的Wikipedia段落变体,主要基于另一个数据集(UWV/Leesplank_NL_wikipedia_simplifications)中的简化结果列。数据集中的变体包括以下六种文本修改类型:

  • 术语(特定上下文术语)
  • 官方语言(政府机构、正式文件中使用)
  • 古语(古老、过时)
  • 技术用语(技术性)
  • 学术用语(学术、研究、教育)
  • 诗意用语(诗歌、文学)

数据结构

数据以JSON格式提供,遵循以下结构: json { "jargon": "", "ambtelijke_taal": "", "archaïsche_taal": "", "technisch_taalgebruik": "", "academisch_taalgebruik": "", "poëtisch_taalgebruik": "" }

数据集来源

数据集由GPT4-1106-preview生成,使用特定的系统提示来生成更复杂的荷兰语文本版本。

未来计划

计划在获得资金支持后,将数据集扩展至包括以下荷兰语的复杂化类型:

  • 成语
  • 抽象
  • 被动
  • 讽刺与嘲讽
  • 新词与流行词

数据集列说明

  • "original":原始Wikipedia文本
  • "simplified":简化版本(对应于链接数据集中的"result")
  • 其他列:由GPT4生成的(改写)文本
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作