five

QCRI/LlamaLens-English

收藏
Hugging Face2025-03-26 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/QCRI/LlamaLens-English
下载链接
链接失效反馈
官方服务:
资源简介:
LlamaLens是一个专门设计用于分析新闻和社交媒体内容的多语言大型语言模型(LLM)。它支持阿拉伯语、英语和印地语,并专注于19个NLP任务,涵盖了52个数据集。这些任务包括情感分析、立场分析、情绪分析、新闻类别分类、事实性检测、宣传检测、网络欺凌检测、仇恨言论检测等。数据集的规模从几百到几十万条不等,适用于训练、验证和测试。每个数据集的文件格式为JSONL,包含唯一标识符、原始文本、标签、数据集名称、任务类型、语言和指令等字段。LlamaLens还提供了数据预处理、指令数据集创建、模型微调、推理和评估的完整流程。

LlamaLens is a specialized multilingual LLM designed for analyzing news and social media content. It supports Arabic, English, and Hindi, focusing on 19 NLP tasks across 52 datasets. These tasks include sentiment analysis, stance detection, emotion analysis, news genre categorization, factuality detection, propaganda detection, cyberbullying detection, hate speech detection, and more. The dataset sizes range from hundreds to hundreds of thousands of entries, suitable for training, validation, and testing. Each dataset follows a JSONL file format, containing fields such as unique identifier, original text, label, dataset name, task type, language, and instructions. LlamaLens also provides a complete pipeline for data preprocessing, instruction dataset creation, model fine-tuning, inference, and evaluation.
提供机构:
QCRI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作