five

curlie-gpt3.5-10k, curlie-gpt4-10k

收藏
github2023-12-21 更新2024-05-31 收录
下载链接:
https://github.com/CS-433/ml-project-2-mlp
下载链接
链接失效反馈
官方服务:
资源简介:
本研究使用大型语言模型(LLMs)创建了一个高质量的微调数据集,更准确地反映了网站主题的多样性。我们评估了各种基于LLM的标注器,并通过与众包注释的比较选择了最佳的一个。我们生成了两个新版本的10,000网站数据集,`curlie-gpt3.5-10k`和`curlie-gpt4-10k`,用于微调Homepage2Vec。我们展示了使用这些数据集微调Homepage2Vec后,其宏观F1分数从38%提高到42%。最后,我们将这两个LLM注释的数据集公开发布。

In this study, we utilized large language models (LLMs) to create a high-quality fine-tuning dataset that more accurately reflects the diversity of website themes. We evaluated various LLM-based annotators and selected the best one through comparison with crowdsourced annotations. We generated two new versions of a 10,000-website dataset, `curlie-gpt3.5-10k` and `curlie-gpt4-10k`, for fine-tuning Homepage2Vec. We demonstrated that fine-tuning Homepage2Vec with these datasets improved its macro F1 score from 38% to 42%. Finally, we publicly released these two LLM-annotated datasets.
创建时间:
2023-11-12
原始信息汇总

数据集概述

数据集名称与版本

  • 名称: curlie-gpt3.5-10kcurlie-gpt4-10k
  • 版本: 1.0.0

数据集描述

这两个数据集是由Large Language Models (LLMs)生成的,用于finetuning Homepage2Vec模型,以提高其多语言网站分类的准确性。数据集包含10,000个网站的信息,旨在更准确地反映网站的主题多样性。

数据集创建目的

数据集的创建是为了解决Homepage2Vec模型初始训练数据中每个网站平均只包含一个主题的限制。通过使用LLMs生成的高质量finetuning数据,旨在提升Homepage2Vec的分类性能。

数据集使用许可

数据集已公开发布,可通过Zenodo下载。使用该数据集进行研究时,应按照提供的bibtex引用格式进行引用。

数据集性能提升

通过使用curlie-gpt3.5-10kcurlie-gpt4-10k数据集对Homepage2Vec进行finetuning,模型的宏观F1分数从38%提升至42%。

数据集引用信息

bibtex @dataset{curlie-gpt-10k, author = {Nutter, P. and Senghaas, M. and Cizinsky, L.}, title = {Curlie Enhanced with LLM Annotations: Two Datasets for Advancing Homepage2Vecs Multilingual Website Classification}, year = 2023, version = {1.0.0}, publisher = {Zenodo}, doi = {10.5281/zenodo.10413068}, url = {https://doi.org/10.5281/zenodo.10413068} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于大规模语言模型(LLMs)的标注能力,旨在提升多语言网站分类模型Homepage2Vec的性能。研究团队从Curlie数据集中选取了10,000个网站,并利用GPT-3.5和GPT-4两种LLM模型对这些网站进行多标签标注。通过对比众包标注结果,研究团队筛选出最优的LLM标注器,生成了`curlie-gpt3.5-10k`和`curlie-gpt4-10k`两个数据集。这些数据集不仅扩展了原始数据的主题多样性,还为模型微调提供了高质量的训练样本。
使用方法
使用该数据集时,首先需通过Poetry工具配置Python环境,并安装相关依赖。用户可以通过命令行运行实验脚本,选择不同的数据集和标注器进行模型微调。具体步骤包括:从Curlie数据集中抓取网页内容,提取特征并嵌入,随后使用指定的LLM标注器生成标签,最后对Homepage2Vec模型进行微调。为节省时间,用户可直接下载预处理的压缩数据文件夹,避免重复抓取和标注过程。实验结果的详细分析可通过提供的Jupyter笔记本进行查看。
背景与挑战
背景概述
在自然语言处理与多语言网站分类领域,Homepage2Vec模型以其卓越的多语言、多标签分类能力脱颖而出。然而,其初始训练数据仅包含每个网站单一主题的局限性,促使研究人员探索利用大型语言模型(LLMs)生成更高质量的数据集。2023年,由EPFL数据科学实验室(DLab)主导的研究团队,在Robert West教授和Tiziano Piccardi的指导下,开发了`curlie-gpt3.5-10k`和`curlie-gpt4-10k`两个数据集。这些数据集通过LLMs生成,旨在提升Homepage2Vec模型的分类性能,使其宏F1分数从38%提升至42%。该研究不仅推动了多语言网站分类技术的发展,还为LLMs在数据增强领域的应用提供了新的视角。
当前挑战
构建`curlie-gpt3.5-10k`和`curlie-gpt4-10k`数据集的过程中,研究团队面临多重挑战。首先,如何确保LLMs生成的标签能够准确反映网站的多主题特性,是一个核心问题。尽管LLMs在生成多样化标签方面表现出色,但其输出仍需与人工标注数据进行对比验证,以确保标签的准确性与一致性。其次,数据集的构建涉及大量网页内容的抓取与预处理,这对计算资源与时间成本提出了较高要求。此外,如何在有限的计算资源下高效地完成数据标注与模型微调,也是研究团队需要克服的技术难题。这些挑战不仅考验了研究团队的技术能力,也为未来类似数据集的构建提供了宝贵的经验。
常用场景
经典使用场景
在自然语言处理领域,`curlie-gpt3.5-10k`和`curlie-gpt4-10k`数据集被广泛用于多语言网站分类任务。通过利用大型语言模型(LLMs)生成的高质量标注数据,这些数据集显著提升了Homepage2Vec模型在网站主题分类中的表现。研究者们通常使用这些数据集对模型进行微调,以提高其在多语言环境下的分类准确性和鲁棒性。
解决学术问题
该数据集解决了传统网站分类模型中标注数据单一、主题多样性不足的问题。通过引入LLM生成的标注数据,研究者能够更准确地捕捉网站的多主题特性,从而提升模型的分类性能。这一突破不仅推动了多语言网站分类领域的发展,还为其他依赖高质量标注数据的自然语言处理任务提供了新的思路。
实际应用
在实际应用中,`curlie-gpt3.5-10k`和`curlie-gpt4-10k`数据集被用于构建更智能的搜索引擎和内容推荐系统。通过精确分类网站主题,这些数据集帮助搜索引擎更好地理解用户查询意图,并推荐更相关的内容。此外,它们还被应用于网络内容审核,帮助识别和过滤不适宜或有害信息。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言网站分类一直是研究的热点之一。Homepage2Vec作为一种先进的多语言、多标签网站分类模型,虽然在分类准确性上表现出色,但其初始训练数据的单一性限制了模型的进一步优化。近期研究通过引入大型语言模型(LLMs)生成高质量的数据集,显著提升了模型的性能。具体而言,研究者利用GPT-3.5和GPT-4生成了两个包含10,000个网站的数据集`curlie-gpt3.5-10k`和`curlie-gpt4-10k`,用于微调Homepage2Vec。实验结果表明,微调后的模型在宏F1分数上从38%提升至42%,有效解决了数据多样性不足的问题。这一研究不仅推动了多语言网站分类技术的发展,还为LLMs在数据增强领域的应用提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作