curlie-gpt3.5-10k, curlie-gpt4-10k
收藏数据集概述
数据集名称与版本
- 名称:
curlie-gpt3.5-10k和curlie-gpt4-10k - 版本: 1.0.0
数据集描述
这两个数据集是由Large Language Models (LLMs)生成的,用于finetuning Homepage2Vec模型,以提高其多语言网站分类的准确性。数据集包含10,000个网站的信息,旨在更准确地反映网站的主题多样性。
数据集创建目的
数据集的创建是为了解决Homepage2Vec模型初始训练数据中每个网站平均只包含一个主题的限制。通过使用LLMs生成的高质量finetuning数据,旨在提升Homepage2Vec的分类性能。
数据集使用许可
数据集已公开发布,可通过Zenodo下载。使用该数据集进行研究时,应按照提供的bibtex引用格式进行引用。
数据集性能提升
通过使用curlie-gpt3.5-10k和curlie-gpt4-10k数据集对Homepage2Vec进行finetuning,模型的宏观F1分数从38%提升至42%。
数据集引用信息
bibtex @dataset{curlie-gpt-10k, author = {Nutter, P. and Senghaas, M. and Cizinsky, L.}, title = {Curlie Enhanced with LLM Annotations: Two Datasets for Advancing Homepage2Vecs Multilingual Website Classification}, year = 2023, version = {1.0.0}, publisher = {Zenodo}, doi = {10.5281/zenodo.10413068}, url = {https://doi.org/10.5281/zenodo.10413068} }




