curlie-gpt3.5-10k, curlie-gpt4-10k

github2023-12-21 更新2024-05-31 收录

下载链接：

https://github.com/CS-433/ml-project-2-mlp

下载链接

链接失效反馈

官方服务：

资源简介：

本研究使用大型语言模型（LLMs）创建了一个高质量的微调数据集，更准确地反映了网站主题的多样性。我们评估了各种基于LLM的标注器，并通过与众包注释的比较选择了最佳的一个。我们生成了两个新版本的10,000网站数据集，`curlie-gpt3.5-10k`和`curlie-gpt4-10k`，用于微调Homepage2Vec。我们展示了使用这些数据集微调Homepage2Vec后，其宏观F1分数从38%提高到42%。最后，我们将这两个LLM注释的数据集公开发布。

In this study, we utilized large language models (LLMs) to create a high-quality fine-tuning dataset that more accurately reflects the diversity of website themes. We evaluated various LLM-based annotators and selected the best one through comparison with crowdsourced annotations. We generated two new versions of a 10,000-website dataset, `curlie-gpt3.5-10k` and `curlie-gpt4-10k`, for fine-tuning Homepage2Vec. We demonstrated that fine-tuning Homepage2Vec with these datasets improved its macro F1 score from 38% to 42%. Finally, we publicly released these two LLM-annotated datasets.

创建时间：

2023-11-12

原始信息汇总

数据集概述

数据集名称与版本

名称: curlie-gpt3.5-10k 和 curlie-gpt4-10k
版本: 1.0.0

数据集描述

这两个数据集是由Large Language Models (LLMs)生成的，用于finetuning Homepage2Vec模型，以提高其多语言网站分类的准确性。数据集包含10,000个网站的信息，旨在更准确地反映网站的主题多样性。

数据集创建目的

数据集的创建是为了解决Homepage2Vec模型初始训练数据中每个网站平均只包含一个主题的限制。通过使用LLMs生成的高质量finetuning数据，旨在提升Homepage2Vec的分类性能。

数据集使用许可

数据集已公开发布，可通过Zenodo下载。使用该数据集进行研究时，应按照提供的bibtex引用格式进行引用。

数据集性能提升

通过使用curlie-gpt3.5-10k和curlie-gpt4-10k数据集对Homepage2Vec进行finetuning，模型的宏观F1分数从38%提升至42%。

数据集引用信息

bibtex @dataset{curlie-gpt-10k, author = {Nutter, P. and Senghaas, M. and Cizinsky, L.}, title = {Curlie Enhanced with LLM Annotations: Two Datasets for Advancing Homepage2Vecs Multilingual Website Classification}, year = 2023, version = {1.0.0}, publisher = {Zenodo}, doi = {10.5281/zenodo.10413068}, url = {https://doi.org/10.5281/zenodo.10413068} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于大规模语言模型（LLMs）的标注能力，旨在提升多语言网站分类模型Homepage2Vec的性能。研究团队从Curlie数据集中选取了10,000个网站，并利用GPT-3.5和GPT-4两种LLM模型对这些网站进行多标签标注。通过对比众包标注结果，研究团队筛选出最优的LLM标注器，生成了`curlie-gpt3.5-10k`和`curlie-gpt4-10k`两个数据集。这些数据集不仅扩展了原始数据的主题多样性，还为模型微调提供了高质量的训练样本。

使用方法

使用该数据集时，首先需通过Poetry工具配置Python环境，并安装相关依赖。用户可以通过命令行运行实验脚本，选择不同的数据集和标注器进行模型微调。具体步骤包括：从Curlie数据集中抓取网页内容，提取特征并嵌入，随后使用指定的LLM标注器生成标签，最后对Homepage2Vec模型进行微调。为节省时间，用户可直接下载预处理的压缩数据文件夹，避免重复抓取和标注过程。实验结果的详细分析可通过提供的Jupyter笔记本进行查看。

背景与挑战

背景概述

在自然语言处理与多语言网站分类领域，Homepage2Vec模型以其卓越的多语言、多标签分类能力脱颖而出。然而，其初始训练数据仅包含每个网站单一主题的局限性，促使研究人员探索利用大型语言模型（LLMs）生成更高质量的数据集。2023年，由EPFL数据科学实验室（DLab）主导的研究团队，在Robert West教授和Tiziano Piccardi的指导下，开发了`curlie-gpt3.5-10k`和`curlie-gpt4-10k`两个数据集。这些数据集通过LLMs生成，旨在提升Homepage2Vec模型的分类性能，使其宏F1分数从38%提升至42%。该研究不仅推动了多语言网站分类技术的发展，还为LLMs在数据增强领域的应用提供了新的视角。

当前挑战

构建`curlie-gpt3.5-10k`和`curlie-gpt4-10k`数据集的过程中，研究团队面临多重挑战。首先，如何确保LLMs生成的标签能够准确反映网站的多主题特性，是一个核心问题。尽管LLMs在生成多样化标签方面表现出色，但其输出仍需与人工标注数据进行对比验证，以确保标签的准确性与一致性。其次，数据集的构建涉及大量网页内容的抓取与预处理，这对计算资源与时间成本提出了较高要求。此外，如何在有限的计算资源下高效地完成数据标注与模型微调，也是研究团队需要克服的技术难题。这些挑战不仅考验了研究团队的技术能力，也为未来类似数据集的构建提供了宝贵的经验。

常用场景

经典使用场景

在自然语言处理领域，`curlie-gpt3.5-10k`和`curlie-gpt4-10k`数据集被广泛用于多语言网站分类任务。通过利用大型语言模型（LLMs）生成的高质量标注数据，这些数据集显著提升了Homepage2Vec模型在网站主题分类中的表现。研究者们通常使用这些数据集对模型进行微调，以提高其在多语言环境下的分类准确性和鲁棒性。

解决学术问题

该数据集解决了传统网站分类模型中标注数据单一、主题多样性不足的问题。通过引入LLM生成的标注数据，研究者能够更准确地捕捉网站的多主题特性，从而提升模型的分类性能。这一突破不仅推动了多语言网站分类领域的发展，还为其他依赖高质量标注数据的自然语言处理任务提供了新的思路。

实际应用

在实际应用中，`curlie-gpt3.5-10k`和`curlie-gpt4-10k`数据集被用于构建更智能的搜索引擎和内容推荐系统。通过精确分类网站主题，这些数据集帮助搜索引擎更好地理解用户查询意图，并推荐更相关的内容。此外，它们还被应用于网络内容审核，帮助识别和过滤不适宜或有害信息。

数据集最近研究