korean_stock_ticker_qa_data

Hugging Face2025-05-17 更新2025-05-18 收录

下载链接：

https://huggingface.co/datasets/kgmyh/korean_stock_ticker_qa_data

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于韩国证券市场上市公司名称与股票代码问答的数据集。数据来源于韩国交易所网站，数据更新时间为2025年5月15日。数据集包含问题和答案两个字段，均为字符串类型。训练集包含13833个示例，测试集包含50个示例。

创建时间：

2025-05-17

搜集汇总

数据集介绍

构建方式

该数据集聚焦于韩国金融市场信息检索领域，其构建过程依托韩国交易所官方发布的上市公司名录。数据采集自KRX 코스닥市场公开信息平台，通过系统化提取2025年5月15日基准的上市公司全称与对应证券代码，构建出标准化的问答对模板。每个数据单元采用“公司名称-证券代码”的映射结构，确保金融实体与编码信息的精确对应，最终形成包含13,865条训练样本与50条测试样本的完整语料库。

特点

作为专门针对韩股市场的语义理解数据集，其核心特征体现在三方面：数据维度严格遵循金融命名规范，涵盖韩国主板与科斯达克市场全部上市公司；语言特性全面采用韩语原生表达，保留金融术语的专业性与地域特征；任务设计聚焦证券代码检索场景，通过简洁的问答结构实现高精度信息匹配。所有样本均经过官方数据源交叉验证，具备高度的时效性与权威性。

使用方法

该数据集主要服务于金融自然语言处理应用场景，使用者可通过加载标准数据分割方案直接调用。训练集适用于构建上市公司名称与证券代码的映射模型，测试集则用于评估模型在真实金融查询场景下的泛化能力。建议采用序列标注或文本匹配技术处理问答对，通过编码器-解码器架构学习韩语公司名称与数字代码的关联规律，最终实现智能投顾系统中的自动代码查询功能。

背景与挑战

背景概述

随着金融科技领域的快速发展，高效获取准确的股票信息成为投资决策与市场分析的核心需求。korean_stock_ticker_qa_data数据集由韩国相关机构于2025年构建，基于韩国交易所的公开数据源，专注于解决韩国股市中公司名称与股票代码匹配的自然语言处理问题。该数据集通过问答形式，旨在提升金融信息检索的自动化水平，为韩语金融语言模型的发展提供关键支持，推动了智能投顾与风险管理系统在本地化应用中的进步。

当前挑战

该数据集针对的领域挑战在于精确映射公司名称与股票代码，这要求模型具备处理韩语同音异义词和简称变体的能力，以避免误匹配。在构建过程中，数据收集面临实时市场数据更新的动态性，需确保信息时效性与一致性；同时，数据清洗需处理非标准化公司名称的归一化问题，以及应对韩语字符编码的复杂性，这些因素均增加了数据集质量控制的难度。

常用场景

经典使用场景

在金融信息处理领域，该数据集作为韩国股市公司名称与股票代码对应关系的问答资源，广泛应用于自然语言处理模型的训练与评估。通过模拟用户查询上市公司股票代码的真实场景，它有效支撑了问答系统对金融实体识别的精准度优化，尤其在处理韩语金融术语的语义理解方面展现出重要价值。

衍生相关工作

该数据集催生了系列金融自然语言处理的重要研究，包括基于深度学习的韩语金融实体链接模型、跨模态股票信息检索系统等创新工作。诸多学者以此为基础构建了融合知识图谱的智能问答框架，进一步衍生出面向东亚市场的多语言金融信息标准化处理范式。

数据集最近研究