five

CFBenchmark|金融文本处理数据集|语言模型评估数据集

收藏
arXiv2024-05-21 更新2024-06-21 收录
金融文本处理
语言模型评估
下载链接:
https://github.com/TongjiFinLab/CFBenchmark
下载链接
链接失效反馈
资源简介:
CFBenchmark是一个专为评估大型语言模型在中文金融助理领域性能而设计的数据集。由同济大学和上海人工智能实验室联合创建,该数据集包含3917个金融文本,覆盖金融识别、分类和生成三大方面,共计八个任务。数据集内容丰富,包括金融新闻和研究报告,文本长度从50字到超过1800字不等,旨在全面测试模型在金融文本处理中的基本能力。创建过程中,专业研究人员对文本进行了严格的筛选和标注,确保数据质量。CFBenchmark的应用领域广泛,主要用于提升金融决策的自动化和智能化水平,解决金融文本处理中的关键问题。
提供机构:
同济大学计算机科学与技术系,上海人工智能实验室
创建时间:
2023-11-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
CFBenchmark数据集的构建基于对中国金融文本处理能力的全面评估需求。该数据集从三个主要方面(即识别、分类和生成)设计了八个任务,涵盖了从50到超过1800字符长度的金融文本。具体任务包括公司和产品识别、情感分析、行业分类、事件检测以及内容摘要、投资建议和风险警报的生成。数据集的构建过程中,采用了分布式爬虫技术从金融新闻和研究报告中收集数据,并由专业研究人员进行标注,确保数据的准确性和高质量。
特点
CFBenchmark数据集的显著特点在于其全面性和专业性。它不仅涵盖了金融文本处理的基本能力,还通过多样化的任务设计,评估了模型在复杂金融环境中的表现。数据集中的文本长度分布广泛,从短文本到长文本,反映了金融领域的实际应用场景。此外,数据集的标注由金融领域的专业人士完成,确保了评估标准的专业性和准确性。
使用方法
CFBenchmark数据集主要用于评估和提升大型语言模型(LLMs)在金融领域的应用能力。研究者和开发者可以使用该数据集进行模型训练和测试,以提高模型在金融文本识别、分类和生成任务中的表现。具体使用方法包括在零样本和少样本模式下进行实验,评估模型在不同任务中的性能,并通过对比分析,优化模型的金融文本处理能力。数据集的开放性也鼓励了跨领域的合作和创新,推动了金融科技的发展。
背景与挑战
背景概述
随着大型语言模型(LLMs)在金融领域的应用潜力日益显现,评估这些模型在金融任务中的表现变得至关重要。为此,杨磊等研究人员于2023年在上海同济大学和上海人工智能实验室的联合支持下,推出了CFBenchmark数据集。该数据集旨在评估LLMs在中文金融文本处理中的基本能力,涵盖了从识别、分类到生成的三个方面,共包括八个任务。CFBenchmark的推出填补了当前金融领域LLMs评估基准的空白,为金融文本处理提供了全面的评估框架,对推动金融科技的发展具有重要意义。
当前挑战
CFBenchmark在构建过程中面临多项挑战。首先,金融文本的复杂性和专业性要求模型具备高度的语义理解和领域知识。其次,数据集的多样性和广泛性使得数据收集和标注工作异常繁重,需要专业的金融研究人员进行细致的标注。此外,评估模型的性能时,如何在零样本和少样本学习模式下保持一致性和准确性也是一个重要挑战。最后,金融领域的特殊性要求模型在处理风险预警和投资建议等任务时,不仅要准确,还要具备高度的实用性和可靠性。
常用场景
经典使用场景
CFBenchmark数据集的经典使用场景在于评估大型语言模型(LLMs)在中文金融文本处理中的基本能力。通过涵盖金融实体识别、金融文本分类和金融内容生成三个方面的八个任务,CFBenchmark为研究人员提供了一个全面的基准,用于测试和比较不同LLMs在处理中文金融文本时的性能。
解决学术问题
CFBenchmark数据集解决了学术界在评估大型语言模型在特定领域(尤其是金融领域)性能时缺乏统一基准的问题。通过提供一个结构化的评估框架,CFBenchmark帮助研究人员识别现有模型在金融文本处理中的不足,从而推动更高效、更准确的金融语言模型的开发。
衍生相关工作
CFBenchmark数据集的推出激发了一系列相关研究工作,包括但不限于改进金融文本处理的算法、开发新的金融语言模型以及构建更为复杂的金融知识图谱。此外,CFBenchmark还促进了跨学科的合作,如计算机科学与金融学的结合,以解决实际金融问题。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

多个球状星团的光谱和测光数据集

该数据集是多个球状星团的光谱和测光综合数据集,由意大利国家天体物理学院-帕多瓦天体物理观测站等研究机构的研究人员整理。数据集包含了38个球状星团的恒星在14种化学元素上的丰度信息,包括锂、碳、氮、氧、钠、镁、铝、硅、钾、钙、钛、铁、镍和钡。这些数据来源于多个光谱测量项目,如Apache Point Observatory Galactic Evolution Experiment (APOGEE)、Gaia-ESO Survey (GES)和Galactic Archaeology with HERMES (GALAH)。数据集的目的是研究球状星团中不同恒星星族的化学组成,以揭示其形成和演化的机制。

arXiv 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

VEDAI

用于训练YOLO模型的VEDAI数据集,包含图像和标签,用于目标检测和跟踪。

github 收录