weibo_senti_100k|微博情感分析数据集|自然语言处理数据集

魔搭社区2025-05-30 更新2024-05-15 收录

微博情感分析

自然语言处理

下载链接：

https://modelscope.cn/datasets/swift/weibo_senti_100k

下载链接

链接失效反馈

资源简介：

# weibo-senti-100k ## 数据集简介该数据集迁移至 https://huggingface.co/datasets/dirtycomputer/weibo_senti_100k, 并划分为训练集和测试集. 其中训练集100K条, 测试集20K条. ## Baseline 我们使用ms-swift来对该数据集进行训练. 为了节约时间, 我们只使用了训练集中的20000条的数据进行训练, 并使用了ms-swift提供的默认超参数. ```shell # 从main分支安装ms-swift git clone https://github.com/modelscope/swift/ cd swift pip install -e .[llm] pip install deepspeed -U # 如果使用deepspeed进行分布式训练. pip install "vllm==0.3.*" # 评估时进行推理加速 ``` 单卡训练: ```python # GPU memory: 9GB import os os.environ['CUDA_VISIBLE_DEVICES'] = '0' from swift.llm import sft_main, SftArguments sft_main(SftArguments(model_type='qwen1half-1_8b-chat', dataset='huangjintao/weibo_senti_100k#20000')) # 抽取20000条 ``` 使用DDP: ```shell # GPU memory: 9GB # deepspeed可选. 可去掉 NPROC_PER_NODE=8 \ CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \ swift sft \ --model_type qwen1half-1_8b-chat \ --dataset huangjintao/weibo_senti_100k#20000 \ --deepspeed default-zero2 ``` 评估脚本: ```python import os os.environ['CUDA_VISIBLE_DEVICES'] = '0' # os.system('pip install vllm==0.3.*') # 可选 (vllm进行推理加速) os.environ['FORCE_REDOWNLOAD'] = '1' from swift.llm import infer_main, InferArguments, register_dataset dataset_info = { "weibo-zh-test": { "dataset_id": "huangjintao/weibo_senti_100k", "subsets": ["test"], "split": ["test"] } } result = infer_main(InferArguments( ckpt_dir='output/qwen1half-1_8b-chat/vx-xxx/checkpoint-xxx', do_sample=False, custom_dataset_info=dataset_info, dataset="weibo-zh-test", show_dataset_sample=-1, merge_lora=True, infer_backend='vllm')) result = result['result'] count = 0 for i, res in enumerate(result): if res['response'] == res['label']: count += 1 print(f'acc: {count / len(result)}') print() # 0.9815 (baseline) ``` baseline的准确率为: 可改进的地方: 1. 为输入添加prompt. 2. 调节训练的超参数, 例如: 使用全参数训练, lora超参数, 训练超参数, 其他tuners等. 3. 不同的模型选择. 4. ...

提供机构：

maas

创建时间：

2024-05-05

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GAOKAO-Bench

GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集，涵盖了2010至2022年间中国高考的所有科目题目，共计2811题。该数据集包含1781道客观题和1030道主观题，题型多样，包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件，数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准，特别是在解决中国高考相关问题上的表现。

arXiv 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国陆域及周边逐日1km全天候地表温度数据集（TRIMS LST；2000-2023）

地表温度（Land surface temperature, LST）是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现，又对于地气过程具有复杂的反馈作用。因此，地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提，还是众多模型的直接输入参数，在许多领域有广泛的应用，如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化，学术界对卫星遥感的全天候地表温度（All-weather LST）具有迫切的需求。本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据，辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性，最终重建得到较高质量的全天候地表温度数据集。评价结果表明，本数据集具有良好的图像质量和精度，不仅在空间上无缝，还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时，该数据集在白天和夜间的平均偏差（MBE）为0.09K和-0.03K，偏差标准差（STD）为1.45K和1.17K。基于19个站点实测数据的检验结果表明，其MBE为-2.26K至1.73K，RMSE为0.80K至3.68K，且在晴空与非晴空条件下无显著区别。本数据集的时间分辨率为逐日4次，空间分辨率为1km，时间跨度为2000年-2023年；空间范围包括我国陆域的主要区域（包含港澳台地区，暂不包含我国南海诸岛）及周边区域（72°E-135°E，19°N-55°N）。本数据集的缩写名为TRIMS LST（Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST），以便用户使用。需要说明的是，TRIMS LST的空间子集TRIMS LST-TP（中国西部逐日1 km全天候地表温度数据集（TRIMS LST-TP；2000-2023）V2）同步在国家青藏高原科学数据中心发布，以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录