five

UWV/Leesplank_NL_wikipedia_simplifications

收藏
Hugging Face2024-03-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/UWV/Leesplank_NL_wikipedia_simplifications
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含287万段荷兰语维基百科段落及其简化文本的组合,简化文本可能包含多个段落。数据集由UWV创建,作为Leesplank项目的一部分,旨在生成符合伦理和法律要求的数据集。数据集的原始数据来源于Gigacorpus的维基百科摘录,通过GPT-4 1106预览版进行严格过滤,遵循OpenAI的过滤标准。生成简化文本时使用了特定的提示词,并设定了温度(Temperature)和top_P参数。生成后的组合经过长度比例过滤,排除了不符合标准的条目。

该数据集包含287万段荷兰语维基百科段落及其简化文本的组合,简化文本可能包含多个段落。数据集由UWV创建,作为Leesplank项目的一部分,旨在生成符合伦理和法律要求的数据集。数据集的原始数据来源于Gigacorpus的维基百科摘录,通过GPT-4 1106预览版进行严格过滤,遵循OpenAI的过滤标准。生成简化文本时使用了特定的提示词,并设定了温度(Temperature)和top_P参数。生成后的组合经过长度比例过滤,排除了不符合标准的条目。
提供机构:
UWV
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-nc-4.0
  • 任务类别:
    • 文本生成
    • 文本分类
    • 翻译
    • 文本到文本生成
  • 语言: 荷兰语
  • 数据集名称: Leesplank wikipedia vereenvoudigingen
  • 数据规模: 1M<n<10M

数据内容

  • 包含内容: 2.87M 段落,包含提示/结果组合,其中提示是来自荷兰维基百科的段落,结果是简化文本,可能包含多个段落。
  • 数据来源: 基于 Gigacorpus 的维基百科提取内容。
  • 数据处理: 使用 GPT 4 1106 preview 进行处理,过滤级别为最严格,符合 OpenAI 过滤标准。

生成过程

  • 提示信息:
    • 简化荷兰语段落为适合第二语言为荷兰语的成人读者的清晰、吸引人的文本。
    • 使用“阿姆斯特丹幼儿基础词汇表”中的词汇。
    • 保持直接引语,简化对话,自然解释文化参考、习语和技术术语。
    • 调整信息顺序以提高简单性、吸引力和可读性。
    • 尽量避免使用逗号或缩略词。
  • 超参数:
    • 温度: 0.5
    • top_P: 0.2
  • 过滤标准: 提示/结果长度比大于4或小于0.25的组合被视为“不良”,不包含在数据集中。

额外处理

  • 可能需要进一步处理以过滤出源自地图描述的项目。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作