TiddlyWiki-LLM-dataset

github2024-10-31 更新2024-11-01 收录

下载链接：

https://github.com/tiddly-gittly/TiddlyWiki-LLM-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于TiddlyWiki中自动UI生成的WikiText语法数据集。该数据集通过生成QA对、使用LLM生成缺失的Q或A、生成审查API调用并上传到审查平台等步骤来创建和更新。数据集的目的是减少人工从头创建材料的需要。

A WikiText syntax dataset for automated UI generation in TiddlyWiki. This dataset is created and updated through procedures including generating QA pairs, utilizing LLMs to generate missing questions or answers, generating review API calls and uploading them to the review platform, and other relevant steps. The goal of this dataset is to reduce the need for manually creating materials from scratch.

创建时间：

2024-10-30

原始信息汇总

TiddlyWiki-LLM-dataset

概述

该数据集用于在TiddlyWiki中自动生成UI的WikiText语法数据集。

数据处理流程

读取配置文件夹中的文件，创建TiddlyWiki核心和插件的快照，并跳过与第一个条目输入相同的文本。
使用模板生成更多的QA对。
使用LLM生成缺失的Q或A。
生成审查API调用并上传到审查平台。
请求社区帮助审查。
当TiddlyWiki版本更新时，导入更新的wikitext并重新运行上述流程。
导出数据集以进行LLM微调。

AI提示

生成材料以便人类无需从头开始创建。

数据

提示是带有变量替换的WikiText tiddlers，位于wiki的prompts文件夹中。

每个tiddler的wikified body将被放置到审查平台，并可以使用以下变量：

InputTiddler：从TiddlyWiki核心或其他插件读取的.tid文件内容，包含元数据部分。
InputWikiText：由管道提取的tiddler的文本部分。
AIOutput：由管道生成的GPT输出。

管道

使用纯JS获取InputTiddler和InputWikiText。
这些变量将在pipeline的prompts文件夹中的tiddlers中可用。
逐个处理“输入” X “数据提示tiddler”矩阵成员，获取数据tiddler的prompt字段，作为DataPrompt变量。
使用WikiText组合变量，并使用wikified tiddler文本作为AI输入，以获取AIOutput变量的内容。

审查

在审查平台中，有“原始语言”和“翻译”区域，因为使用的是翻译审查平台。

原始WikiText + AI提示生成的材料将作为“原始语言”，而AI生成的聊天材料将放置在“翻译”区域，供人类审查和编辑。

搜集汇总

数据集介绍

构建方式

TiddlyWiki-LLM-dataset的构建过程始于对TiddlyWiki核心及其插件的快照创建，通过配置文件中的文件夹读取操作实现。此过程确保了文本内容的唯一性，避免了重复。随后，通过模板生成更多的问答对，并利用大型语言模型（LLM）填补缺失的问答内容。生成的内容通过API调用上传至评审平台，并邀请社区成员参与评审。每当TiddlyWiki版本更新时，重新运行整个流水线，最终导出数据集以供LLM微调使用。

特点

该数据集的显著特点在于其自动化生成和社区参与评审的机制。通过WikiText语法和变量嵌入，数据集能够高效生成复杂的问答对。此外，利用LLM填补缺失内容，确保了数据集的完整性和多样性。社区评审环节则进一步提升了数据集的质量，确保生成的内容符合实际应用需求。

使用方法

使用TiddlyWiki-LLM-dataset时，首先需通过纯JavaScript获取InputTiddler和InputWikiText，这些变量随后用于生成AIOutput。通过组合WikiText和数据提示模板，生成AI输入，最终得到AIOutput变量的内容。生成的内容将被上传至评审平台，供社区成员审查和编辑。用户可以通过参与Paratranz平台上的项目，直接参与数据集的评审和改进过程。

背景与挑战

背景概述

TiddlyWiki-LLM-dataset数据集由一群专注于TiddlyWiki自动化UI生成的研究人员和机构创建，旨在通过WikiText语法生成高质量的问答对，以支持大型语言模型（LLM）的微调。该数据集的构建始于对TiddlyWiki核心及其插件的快照创建，通过识别和跳过重复文本，确保数据的新颖性和有效性。随后，利用模板生成更多的问答对，并通过LLM填补缺失的问答内容。这一过程不仅提高了数据集的丰富性，还为TiddlyWiki社区提供了宝贵的资源，推动了自动化UI生成领域的发展。

当前挑战

TiddlyWiki-LLM-dataset数据集在构建过程中面临多项挑战。首先，确保数据的新颖性和有效性，避免重复文本的困扰，需要精确的算法和高效的文本处理技术。其次，生成高质量的问答对依赖于模板的精确性和LLM的输出质量，这要求对模型的训练和调优有深入的理解。此外，数据集的生成和更新需要与TiddlyWiki版本的升级同步，确保数据的实时性和准确性。最后，社区的参与和反馈是数据集质量提升的关键，但如何有效管理和整合社区的意见，仍是一个亟待解决的问题。

常用场景

经典使用场景

在TiddlyWiki-LLM-dataset的经典使用场景中，该数据集主要用于自动化用户界面（UI）生成的任务。通过解析TiddlyWiki的核心和插件，数据集能够生成高质量的问答对（QA pair），并利用大型语言模型（LLM）填补缺失的问题或答案。这一过程不仅提高了数据集的完整性和准确性，还显著减少了人工创建和维护的工作量。

解决学术问题

TiddlyWiki-LLM-dataset解决了在自动化UI生成过程中，传统方法依赖大量人工干预的问题。通过引入LLM，该数据集能够自动生成和优化WikiText语法，从而提升了数据处理的效率和准确性。这一创新不仅为学术界提供了新的研究方向，还为相关领域的自动化工具开发提供了宝贵的实践经验。

衍生相关工作

TiddlyWiki-LLM-dataset的引入催生了多项相关研究和工作。例如，基于该数据集的研究已经探索了如何更有效地利用LLM进行文本生成和语法优化。此外，数据集的成功应用也激发了其他Wiki平台和工具的类似自动化改进，推动了整个领域的技术进步。这些衍生工作不仅丰富了学术研究，还为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集