five

FISA-conclave/news-sentiment-dataset

收藏
Hugging Face2025-12-10 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/FISA-conclave/news-sentiment-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ko task_categories: - text-classification - sentiment-analysis tags: - sentiment-analysis - korean - finance - news pretty_name: Korean News Sentiment Analysis Dataset size_categories: - 10K<n<100K --- # Korean News Sentiment Analysis Dataset ## 데이터셋 설명 한국어 뉴스 기사에서 추출한 기업 관련 문장의 감성 분석 데이터셋입니다. ### 데이터 통계 - **총 샘플 수**: 45,544개 - **Train**: 36,435개 (80%) - **Test**: 9,109개 (20%) ### 레이블 분포 | Label | Count | Percentage | |-------|-------|------------| | negative | 4,161 | 9.1% | | neutral | 23,403 | 51.4% | | positive | 17,980 | 39.5% | ## 데이터 구조 ```python { 'sentence': str, # 뉴스 기사 문장 'label': str # 감성 레이블 (negative, neutral, positive) } ``` ## 사용 예시 ### 데이터셋 로드 ```python from datasets import load_dataset # 데이터셋 로드 dataset = load_dataset("FISA-conclave/news-sentiment-dataset") # Train 데이터 확인 print(dataset['train'][0]) # {'sentence': '...', 'label': 'positive'} # Test 데이터 확인 print(dataset['test'][0]) ``` ### 학습에 사용 ```python from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments # 모델 및 토크나이저 로드 model_name = "klue/roberta-base" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3) # 데이터셋 토크나이징 def tokenize_function(examples): return tokenizer(examples['sentence'], truncation=True, padding='max_length', max_length=128) tokenized_datasets = dataset.map(tokenize_function, batched=True) # 학습 training_args = TrainingArguments( output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16, per_device_eval_batch_size=64, evaluation_strategy="epoch", ) trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_datasets['train'], eval_dataset=tokenized_datasets['test'], ) trainer.train() ``` ## 데이터 출처 - 한국어 뉴스 기사에서 추출 - KLUE-RoBERTa 모델로 감성 분석 수행 - asset_type='ST' (주식) 기업만 포함 ## 라이센스 이 데이터셋은 연구 및 교육 목적으로 사용할 수 있습니다. ## 인용 ```bibtex @misc{korean-news-sentiment, title={Korean News Sentiment Analysis Dataset}, author={FISA-conclave}, year={2025}, publisher={Hugging Face}, howpublished={\url{https://huggingface.co/datasets/FISA-conclave/news-sentiment-dataset}} } ``` ## 제작 - Organization: FISA-conclave - Model: FISA-conclave/klue-roberta-news-sentiment - Year: 2025
提供机构:
FISA-conclave
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作