allganize/flare-fiqasa-ko

Name: allganize/flare-fiqasa-ko
Creator: allganize
Published: 2024-04-02 04:43:25
License: 暂无描述

Hugging Face2024-04-02 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/allganize/flare-fiqasa-ko

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversation_id dtype: string - name: conversations list: - name: from dtype: string - name: value dtype: string splits: - name: test num_bytes: 52262 num_examples: 204 download_size: 19986 dataset_size: 52262 configs: - config_name: default data_files: - split: test path: data/test-* license: mit language: - ko --- # flare-fiqasa-ko ### 데이터 설명 - `flare-fiqasa-ko` 데이터는 금융 도메인 뉴스 헤드라인의 감성을 예측(sentiment analysis)하는 데이터셋입니다. 입력값은 text로만 이루어져 있습니다. - 한국어 데이터를 생성하기 위해, 우선 사내 언어 번역 모델 Allganize Translator을 활용하여 [ChanceFocus/flare-fiqasa](https://huggingface.co/datasets/ChanceFocus/flare-fiqasa)의 test set을 번역했습니다. 오역된 데이터를 직접 제거하였고, 그 결과 204개의 평가 데이터가 생성되었습니다. ### 데이터 출처 - [ChanceFocus/flare-fiqasa](https://huggingface.co/datasets/ChanceFocus/flare-fiqasa) ### 데이터 예시 ``` { 'conversation_id': 'fiqasa938', 'conversations': array([ { 'from': 'human', 'value': '''다음 재무 게시물의 감정은 무엇인가요? 긍정, 부정 또는 중립인가요? 텍스트: $BBRY 실제로 부채가 없고 현금 3.1달러를 포함하면 주당 0.03달러의 손실을 입었습니다. 정답:''' }, { 'from': 'gpt', 'value': '부정' } ], dtype=object) } ```

数据集信息：特征字段： - 名称：对话ID（conversation_id），数据类型（dtype）：字符串型（string） - 名称：对话列表（conversations），类型为列表，包含以下子字段： - 名称：发送方（from），数据类型（dtype）：字符串型（string） - 名称：内容值（value），数据类型（dtype）：字符串型（string）划分集（splits）： - 名称：测试集（test），字节数（num_bytes）：52262，样本数（num_examples）：204 下载大小（download_size）：19986，数据集总大小（dataset_size）：52262 配置项（configs）： - 配置名称（config_name）：默认配置（default），数据文件（data_files）： - 划分集（split）：测试集（test），文件路径（path）：data/test-* 许可证（license）：MIT许可证语言（language）：韩语 # flare-fiqasa-ko ### 数据集说明 - `flare-fiqasa-ko` 是一款面向金融领域新闻标题的情感分析（sentiment analysis）数据集，其输入仅包含纯文本内容。 - 为构建韩语版数据集，我们首先采用自研语言翻译模型Allganize Translator，对[ChanceFocus/flare-fiqasa](https://huggingface.co/datasets/ChanceFocus/flare-fiqasa)的测试集进行了翻译。随后人工排查并剔除了存在翻译错误的样本，最终得到204条评测数据。 ### 数据集来源 - [ChanceFocus/flare-fiqasa](https://huggingface.co/datasets/ChanceFocus/flare-fiqasa) ### 数据示例 { 'conversation_id': 'fiqasa938', 'conversations': array([ { 'from': 'human', 'value': '''以下财务帖子的情感是什么？请从积极、消极或中性中选择？文本：$BBRY 实际上无负债，若包含3.1美元现金，则每股亏损0.03美元。标准答案：''' }, { 'from': 'gpt', 'value': '消极' } ], dtype=object) }

提供机构：

allganize

原始信息汇总

数据集概述

数据集名称

flare-fiqasa-ko

数据集用途

用于金融领域新闻标题的情感分析。

数据集特征

conversation_id: 字符串类型
conversations: 列表类型，包含以下子特征：
- from: 字符串类型
- value: 字符串类型

数据集分割

test:
- 示例数量: 204
- 数据大小: 52262 字节

数据集大小

下载大小: 19986 字节
数据集大小: 52262 字节

语言

韩语

许可证

搜集汇总

数据集介绍

构建方式

在金融情感分析领域，高质量数据集的构建对模型性能至关重要。本数据集基于ChanceFocus/flare-fiqasa的测试集，通过内部语言翻译模型Allganize Translator将其转化为韩语版本。为确保数据准确性，构建过程中对翻译结果进行了人工筛选，剔除了存在误译的样本，最终形成了包含204条评估数据的精炼集合。这一流程兼顾了语言转换的自动化与质量控制的精细化，为韩语金融文本情感分析提供了可靠基准。

特点

作为专注于金融领域的情感分析数据集，其核心特点体现在领域专一性与语言特异性上。数据集样本均源自金融新闻标题，内容涵盖股价、财报等专业议题，确保了任务场景的真实性。结构上采用对话格式组织，每条数据包含人类提问与模型回答，模拟了实际交互场景。样本规模虽精简，但经过严格筛选，具有较高的标注一致性与语言质量，适用于韩语金融文本情感分类模型的评估与优化。

使用方法

该数据集主要用于评估韩语金融文本情感分析模型的性能。使用者可直接加载测试集，输入为金融新闻标题文本，输出需预测其情感极性（积极、消极或中立）。典型应用流程包括：将文本输入待测模型，获取情感分类结果，并与数据集中提供的标准答案进行比对，从而计算准确率等评估指标。数据集采用标准化格式存储，支持主流机器学习框架直接读取，便于集成至现有评估管道中。

背景与挑战

背景概述

在金融文本分析领域，情感分析技术对于理解市场情绪和预测金融趋势具有关键作用。allganize/flare-fiqasa-ko数据集由Allganize机构创建，其核心研究问题聚焦于对韩语金融新闻标题进行精准的情感分类，旨在支持韩语金融自然语言处理模型的发展。该数据集基于ChanceFocus/flare-fiqasa的测试集，通过内部翻译模型转化并人工筛选而成，虽然规模较小，但为韩语金融情感分析提供了专门的评估基准，促进了跨语言金融文本分析研究的深入。

当前挑战

该数据集旨在解决金融领域情感分析任务，其挑战在于金融文本常包含专业术语、模糊表述和隐含情绪，使得准确分类情感极性（如正面、负面或中立）变得复杂。在构建过程中，主要挑战源于从源数据集翻译至韩语时可能出现的语义偏差和文化语境丢失，需通过人工干预确保翻译质量与金融领域的专业性。此外，有限的样本规模可能影响模型评估的统计稳健性，要求后续研究在数据扩充和领域适应性方面进行更多探索。

常用场景

经典使用场景

在金融文本分析领域，allganize/flare-fiqasa-ko数据集为韩语金融新闻标题的情感分类提供了基准测试平台。该数据集通过精心翻译和筛选，构建了高质量的韩语金融情感标注样本，广泛应用于训练和评估韩语情感分析模型。研究者利用其文本特征，探索模型对金融领域特定术语和语境的理解能力，从而推动韩语自然语言处理技术在金融细分场景中的精准应用。

衍生相关工作

围绕该数据集，衍生了一系列专注于韩语金融情感分析的经典研究工作。这些工作包括基于预训练语言模型的微调策略探索、跨语言迁移学习在金融领域的应用，以及针对金融文本噪声和领域术语的模型鲁棒性增强方法。部分研究进一步构建了扩展数据集或提出了新的评估指标，持续推动了韩语金融自然语言处理技术生态的完善与发展。

数据集最近研究