UWV/Leesplank_NL_wikipedia_simplifications
收藏Hugging Face2024-03-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/UWV/Leesplank_NL_wikipedia_simplifications
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含287万段荷兰语维基百科段落及其简化文本的组合,简化文本可能包含多个段落。数据集由UWV创建,作为Leesplank项目的一部分,旨在生成符合伦理和法律要求的数据集。数据集的原始数据来源于Gigacorpus的维基百科摘录,通过GPT-4 1106预览版进行严格过滤,遵循OpenAI的过滤标准。生成简化文本时使用了特定的提示词,并设定了温度(Temperature)和top_P参数。生成后的组合经过长度比例过滤,排除了不符合标准的条目。
该数据集包含287万段荷兰语维基百科段落及其简化文本的组合,简化文本可能包含多个段落。数据集由UWV创建,作为Leesplank项目的一部分,旨在生成符合伦理和法律要求的数据集。数据集的原始数据来源于Gigacorpus的维基百科摘录,通过GPT-4 1106预览版进行严格过滤,遵循OpenAI的过滤标准。生成简化文本时使用了特定的提示词,并设定了温度(Temperature)和top_P参数。生成后的组合经过长度比例过滤,排除了不符合标准的条目。
提供机构:
UWV
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-nc-4.0
- 任务类别:
- 文本生成
- 文本分类
- 翻译
- 文本到文本生成
- 语言: 荷兰语
- 数据集名称: Leesplank wikipedia vereenvoudigingen
- 数据规模: 1M<n<10M
数据内容
- 包含内容: 2.87M 段落,包含提示/结果组合,其中提示是来自荷兰维基百科的段落,结果是简化文本,可能包含多个段落。
- 数据来源: 基于 Gigacorpus 的维基百科提取内容。
- 数据处理: 使用 GPT 4 1106 preview 进行处理,过滤级别为最严格,符合 OpenAI 过滤标准。
生成过程
- 提示信息:
- 简化荷兰语段落为适合第二语言为荷兰语的成人读者的清晰、吸引人的文本。
- 使用“阿姆斯特丹幼儿基础词汇表”中的词汇。
- 保持直接引语,简化对话,自然解释文化参考、习语和技术术语。
- 调整信息顺序以提高简单性、吸引力和可读性。
- 尽量避免使用逗号或缩略词。
- 超参数:
- 温度: 0.5
- top_P: 0.2
- 过滤标准: 提示/结果长度比大于4或小于0.25的组合被视为“不良”,不包含在数据集中。
额外处理
- 可能需要进一步处理以过滤出源自地图描述的项目。



