Economy Watchers Survey
收藏arXiv2024-07-20 更新2024-07-24 收录
下载链接:
https://huggingface.co/datasets/retarfi/economy-watchers-survey
下载链接
链接失效反馈官方服务:
资源简介:
经济观察者调查数据集由东京大学和北海道大学的研究团队构建,利用日本中央政府机构发布的材料。该数据集包含超过300,000个样本,涉及当前和未来经济评估的文本和标签数据。数据集的创建过程包括自动更新框架,确保最新数据集的可用性。该数据集主要应用于日本金融领域的自然语言处理任务,如分类和情感分析,旨在解决金融领域中语言模型的评估问题。
The Economic Observer Survey Dataset was developed by a research team from The University of Tokyo and Hokkaido University, utilizing materials released by Japanese central government agencies. This dataset contains over 300,000 samples, including text and labeled data related to current and future economic assessments. An automatic update framework is incorporated into the dataset's creation process to ensure the availability of the latest dataset. Primarily applied to natural language processing tasks in the Japanese financial domain, such as classification and sentiment analysis, this dataset is designed to address the problem of language model evaluation in the financial sector.
提供机构:
东京大学
创建时间:
2024-07-20
原始信息汇总
数据集概述
基本信息
- 语言: 日语
- 许可证: CC-BY 4.0
- 数据规模: 100K<n<1M
数据配置
- 配置名称: current
- 训练集:
current/train.jsonl - 验证集:
current/validation.jsonl - 测试集:
current/test.jsonl
- 训练集:
- 配置名称: future
- 训练集:
future/train.jsonl - 验证集:
future/validation.jsonl - 测试集:
future/test.jsonl
- 训练集:
使用方法
python
需要 datasets >= 2.15.0
from datasets import load_dataset ds = load_dataset( "retarfi/economy-watchers-survey", name="current", revision="2024.06.0", split="validation", )
- name: 可选项为
"current"(当前经济周期) 或"future"(未来经济周期)。 - revision: 如未指定,则读取最新数据。
- split: 如指定,数据以
datasets.Dataset格式读取,否则以datasets.DatasetDict格式读取。
许可证
CC-BY 4.0
搜集汇总
数据集介绍

构建方式
Economy Watchers Survey数据集构建于日本内阁府自2000年1月起每月进行的调查数据。该调查收集了约2000名受访者对经济趋势的评价、评论、评估理由等相关领域的标签等信息。数据集构建过程中,首先从内阁府网站获取数据,然后进行数据清洗,去除无意义或无响应的样本,并对文本进行预处理。数据集被分为训练集、验证集和测试集,并利用GitHub Actions实现数据的自动更新,确保数据集始终包含最新的调查结果。
特点
Economy Watchers Survey数据集具有以下特点:1. 数据量庞大,每个数据集包含超过30万个样本;2. 数据更新及时,每月进行自动更新;3. 数据集包括文本和标签,可用于多种自然语言处理任务;4. 数据集涵盖当前和未来经济评估,提供对经济趋势的全面了解;5. 数据集已被用于构建经济趋势指标,具有较高的可靠性。
使用方法
Economy Watchers Survey数据集可用于多种自然语言处理任务,如文本分类、情感分析等。用户可以使用Python等编程语言对数据集进行加载和处理,并根据需要构建不同的模型进行训练和评估。数据集已在Hugging Face Hub平台上发布,方便用户获取和使用。
背景与挑战
背景概述
Economy Watchers Survey数据集的研究背景可以追溯到对自然语言处理(NLP)任务在非英语语言和金融领域的需求。随着大型语言模型(LLMs)如ChatGPT和GPT-4在NLP任务中的高性能表现,这些模型的应用正在从通用领域扩展到医疗保健、法律和金融等专业化领域。然而,针对非英语语言和金融领域的评估任务和框架相对较少。为了填补这一空白,Masahiro Suzuki和Hiroki Sakaji等研究人员利用日本中央政府机构发布的材料,构建了两个大型数据集,旨在为日本金融领域的NLP任务提供支持。这些数据集不仅包含了超过30万个样本的当前和未来经济评估的文本和标签数据,而且还设计了三个大规模的任务:一个3类和12类的文本分类任务,以及一个5类的情感分析任务。这些数据集的构建不仅为评估LLMs在金融领域的高性能提供了可能性,而且为构建经济趋势指标提供了基础数据。
当前挑战
尽管Economy Watchers Survey数据集为日本金融领域的NLP任务提供了重要的资源,但仍然面临一些挑战。首先,LLMs在解决特定领域问题时,需要大量的样本数据,而在非英语语言和金融领域,高质量的评估任务数据集相对较少。其次,构建数据集过程中,数据收集、清洗和格式化等步骤都存在一定的困难。此外,LLMs在零样本或少样本学习设置下的表现可能不如在大量样本上进行微调的传统模型。最后,LLMs在情感分析等任务中的表现可能会受到领域特定模型的影响,需要进一步的研究和探索。
常用场景
经典使用场景
在自然语言处理(NLP)领域,尤其是针对日本金融领域的语言模型评估和训练,Economy Watchers Survey数据集提供了宝贵的资源。该数据集通过分类和情感分析等任务,帮助研究者评估预训练语言模型在不同情境下的表现,尤其是在小样本或少样本设置下的能力。
衍生相关工作
基于Economy Watchers Survey数据集,研究人员可以进一步探索和开发针对日本金融领域的特定NLP任务,如经济趋势预测、公司财务报告分析等。此外,该数据集还可以用于开发经济预测模型,为政府和企业提供决策支持。
数据集最近研究
最新研究方向
Economy Watchers Survey数据集的最新研究方向在于利用日本中央政府机构发布的材料,构建两个大型数据集,为日本金融领域提供三个自然语言处理(NLP)任务。这些任务包括对句子进行3类和12类分类,以及对情感分析进行5类分类。数据集的设计旨在全面和最新,采用自动更新框架,确保最新的任务数据集随时可供公众使用。该研究还评估了在日语金融领域中使用预训练语言模型的表现,结果表明,即使在大型样本的情况下,预训练模型仍然表现出色。
相关研究论文
- 1Economy Watchers Survey provides Datasets and Tasks for Japanese Financial Domain东京大学 · 2024年
以上内容由遇见数据集搜集并总结生成



