allganize/flare-fiqasa-ko
收藏Hugging Face2024-04-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/allganize/flare-fiqasa-ko
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversation_id
dtype: string
- name: conversations
list:
- name: from
dtype: string
- name: value
dtype: string
splits:
- name: test
num_bytes: 52262
num_examples: 204
download_size: 19986
dataset_size: 52262
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
license: mit
language:
- ko
---
# flare-fiqasa-ko
### 데이터 설명
- `flare-fiqasa-ko` 데이터는 금융 도메인 뉴스 헤드라인의 감성을 예측(sentiment analysis)하는 데이터셋입니다.
입력값은 text로만 이루어져 있습니다.
- 한국어 데이터를 생성하기 위해, 우선 사내 언어 번역 모델 Allganize Translator을 활용하여 [ChanceFocus/flare-fiqasa](https://huggingface.co/datasets/ChanceFocus/flare-fiqasa)의 test set을 번역했습니다.
오역된 데이터를 직접 제거하였고, 그 결과 204개의 평가 데이터가 생성되었습니다.
### 데이터 출처
- [ChanceFocus/flare-fiqasa](https://huggingface.co/datasets/ChanceFocus/flare-fiqasa)
### 데이터 예시
```
{
'conversation_id': 'fiqasa938',
'conversations': array([
{
'from': 'human',
'value': '''다음 재무 게시물의 감정은 무엇인가요? 긍정, 부정 또는 중립인가요?
텍스트: $BBRY 실제로 부채가 없고 현금 3.1달러를 포함하면 주당 0.03달러의 손실을 입었습니다.
정답:'''
},
{
'from': 'gpt',
'value': '부정'
}
], dtype=object)
}
```
数据集信息:
特征字段:
- 名称:对话ID(conversation_id),数据类型(dtype):字符串型(string)
- 名称:对话列表(conversations),类型为列表,包含以下子字段:
- 名称:发送方(from),数据类型(dtype):字符串型(string)
- 名称:内容值(value),数据类型(dtype):字符串型(string)
划分集(splits):
- 名称:测试集(test),字节数(num_bytes):52262,样本数(num_examples):204
下载大小(download_size):19986,数据集总大小(dataset_size):52262
配置项(configs):
- 配置名称(config_name):默认配置(default),数据文件(data_files):
- 划分集(split):测试集(test),文件路径(path):data/test-*
许可证(license):MIT许可证
语言(language):韩语
# flare-fiqasa-ko
### 数据集说明
- `flare-fiqasa-ko` 是一款面向金融领域新闻标题的情感分析(sentiment analysis)数据集,其输入仅包含纯文本内容。
- 为构建韩语版数据集,我们首先采用自研语言翻译模型Allganize Translator,对[ChanceFocus/flare-fiqasa](https://huggingface.co/datasets/ChanceFocus/flare-fiqasa)的测试集进行了翻译。随后人工排查并剔除了存在翻译错误的样本,最终得到204条评测数据。
### 数据集来源
- [ChanceFocus/flare-fiqasa](https://huggingface.co/datasets/ChanceFocus/flare-fiqasa)
### 数据示例
{
'conversation_id': 'fiqasa938',
'conversations': array([
{
'from': 'human',
'value': '''以下财务帖子的情感是什么?请从积极、消极或中性中选择?
文本:$BBRY 实际上无负债,若包含3.1美元现金,则每股亏损0.03美元。
标准答案:'''
},
{
'from': 'gpt',
'value': '消极'
}
], dtype=object)
}
提供机构:
allganize
原始信息汇总
数据集概述
数据集名称
flare-fiqasa-ko
数据集用途
- 用于金融领域新闻标题的情感分析。
数据集特征
- conversation_id: 字符串类型
- conversations: 列表类型,包含以下子特征:
- from: 字符串类型
- value: 字符串类型
数据集分割
- test:
- 示例数量: 204
- 数据大小: 52262 字节
数据集大小
- 下载大小: 19986 字节
- 数据集大小: 52262 字节
语言
- 韩语
许可证
- MIT
搜集汇总
数据集介绍

构建方式
在金融情感分析领域,高质量数据集的构建对模型性能至关重要。本数据集基于ChanceFocus/flare-fiqasa的测试集,通过内部语言翻译模型Allganize Translator将其转化为韩语版本。为确保数据准确性,构建过程中对翻译结果进行了人工筛选,剔除了存在误译的样本,最终形成了包含204条评估数据的精炼集合。这一流程兼顾了语言转换的自动化与质量控制的精细化,为韩语金融文本情感分析提供了可靠基准。
特点
作为专注于金融领域的情感分析数据集,其核心特点体现在领域专一性与语言特异性上。数据集样本均源自金融新闻标题,内容涵盖股价、财报等专业议题,确保了任务场景的真实性。结构上采用对话格式组织,每条数据包含人类提问与模型回答,模拟了实际交互场景。样本规模虽精简,但经过严格筛选,具有较高的标注一致性与语言质量,适用于韩语金融文本情感分类模型的评估与优化。
使用方法
该数据集主要用于评估韩语金融文本情感分析模型的性能。使用者可直接加载测试集,输入为金融新闻标题文本,输出需预测其情感极性(积极、消极或中立)。典型应用流程包括:将文本输入待测模型,获取情感分类结果,并与数据集中提供的标准答案进行比对,从而计算准确率等评估指标。数据集采用标准化格式存储,支持主流机器学习框架直接读取,便于集成至现有评估管道中。
背景与挑战
背景概述
在金融文本分析领域,情感分析技术对于理解市场情绪和预测金融趋势具有关键作用。allganize/flare-fiqasa-ko数据集由Allganize机构创建,其核心研究问题聚焦于对韩语金融新闻标题进行精准的情感分类,旨在支持韩语金融自然语言处理模型的发展。该数据集基于ChanceFocus/flare-fiqasa的测试集,通过内部翻译模型转化并人工筛选而成,虽然规模较小,但为韩语金融情感分析提供了专门的评估基准,促进了跨语言金融文本分析研究的深入。
当前挑战
该数据集旨在解决金融领域情感分析任务,其挑战在于金融文本常包含专业术语、模糊表述和隐含情绪,使得准确分类情感极性(如正面、负面或中立)变得复杂。在构建过程中,主要挑战源于从源数据集翻译至韩语时可能出现的语义偏差和文化语境丢失,需通过人工干预确保翻译质量与金融领域的专业性。此外,有限的样本规模可能影响模型评估的统计稳健性,要求后续研究在数据扩充和领域适应性方面进行更多探索。
常用场景
经典使用场景
在金融文本分析领域,allganize/flare-fiqasa-ko数据集为韩语金融新闻标题的情感分类提供了基准测试平台。该数据集通过精心翻译和筛选,构建了高质量的韩语金融情感标注样本,广泛应用于训练和评估韩语情感分析模型。研究者利用其文本特征,探索模型对金融领域特定术语和语境的理解能力,从而推动韩语自然语言处理技术在金融细分场景中的精准应用。
衍生相关工作
围绕该数据集,衍生了一系列专注于韩语金融情感分析的经典研究工作。这些工作包括基于预训练语言模型的微调策略探索、跨语言迁移学习在金融领域的应用,以及针对金融文本噪声和领域术语的模型鲁棒性增强方法。部分研究进一步构建了扩展数据集或提出了新的评估指标,持续推动了韩语金融自然语言处理技术生态的完善与发展。
数据集最近研究
最新研究方向
在金融情感分析领域,allganize/flare-fiqasa-ko数据集作为韩国语金融新闻情感标注资源,正推动跨语言金融文本理解的前沿探索。当前研究聚焦于利用该数据集优化多语言大语言模型在金融情感分类任务中的微调策略,特别是在低资源语言场景下的迁移学习与领域适应性问题。热点事件包括结合生成式人工智能技术,如FLARE框架,以增强模型对金融术语和语境细微差别的捕捉能力,从而提升情感预测的准确性与鲁棒性。这一进展不仅促进了韩国金融科技中自然语言处理应用的发展,也为全球多语言金融情感分析模型的公平性与可及性提供了重要数据支撑,具有显著的学术与产业意义。
以上内容由遇见数据集搜集并总结生成



