five

FinPile|金融数据集|语料库数据集

收藏
github2024-09-20 更新2024-10-01 收录
金融
语料库
下载链接:
https://github.com/HITsz-TMG/FinPile
下载链接
链接失效反馈
资源简介:
FinPile是一个安全、高质量、开源的中文金融语料库,用于生成和检查金融数据。
创建时间:
2024-09-12
原始信息汇总

FinPile

数据集概述

FinPile是一个安全、高质量、开源的中文金融语料库。

环境要求

  • 推荐Python版本:3.11.4
  • 依赖安装:pip install -r requirements.txt

数据预处理步骤

1. 去除个人信息

  • 功能:移除IP地址、电子邮件、电话号码等个人信息。
  • 示例用法: bash python 1_pii.py --input_path input.jsonl --output_path output.jsonl --text_column text --num_proc 4 --batch_size 100

2. 敏感词过滤

  • 功能:过滤包含特定敏感关键词的文本。
  • 敏感词文件存储位置:2_toxic_filter/sensitive_words
  • 示例用法: bash python 2_toxic_filter/2_toxic_filter.py --input_path input.jsonl --output_path output.jsonl --text_column text

3. 规则过滤

  • 功能:基于多条规则进行数据过滤。
    • 语言过滤:保留特定语言(如中文或英文)的文本。
    • 标点符号和空白字符一致性处理:统一文本中的中英文标点符号,标准化空白字符。
    • 连续标点符号去重:将匹配的连续标点符号替换为单个标点符号。
    • 标点符号比例过滤:过滤标点符号比例过高的文本。
    • 数据长度过滤:过滤过短的文本数据。
  • 示例用法: bash python 3_rule_filter.py --input_path input.jsonl --output_path output.jsonl --text_column text --language zh-cn --punctuation_ratio_threshold 0.5 --text_length_threshold 128

4. 困惑度过滤

  • 功能:基于困惑度模型进行数据过滤。
  • 模型下载地址:地址
  • 示例用法: bash python 4_perplexity_filter/kenlm/run.py --input_path input.jsonl --output_path output.jsonl --text_column text --language zh

5. 精确去重

  • 功能:去除数据集中完全相同的文本条目。
  • 示例用法: bash python 5_text_dedup/5_clean.py --input_path input.jsonl --output_path output.jsonl --text_column text --cache cache_dir --num_proc 2 --batch_size 100

6. 模糊去重

  • 功能:去除数据集中相似的文本条目。
  • 示例用法: bash python 6_text_dedup/text_dedup/minhash.py --input_path input.jsonl --output_path output.jsonl --column text --cache_dir cache_dir --threshold 0.8 --false_positive_weight 0.5 --false_negative_weight 0.5

数据评估

  • 评估维度:
    • 语言质量:评估数据的语法正确性、拼写、词汇使用和表达流畅性。
    • 信息内容:评估数据中包含的知识和概念量。
    • 新颖性:评估数据中的新词汇、信息或观点。
    • 连贯性:评估数据的清晰主题、连贯论证和严谨推理。
    • 纯净度:评估数据中的无关信息(如广告、营销、垃圾信息)。
  • 示例用法: bash python 7_DataAnalysis/eval_pipeline.py --data_path input.jsonl --eval_path output.jsonl --text_column text --tiktoken_cache cache_dir --figure_dir figure_dir --model gpt-3.5-turbo-1106 --api_key xxxx --organization xxxx --num_proc 1
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建FinPile数据集的过程中,首先通过去除个人信息的步骤,确保数据的安全性。随后,通过敏感词过滤,排除可能包含有害内容的文本。进一步,采用规则过滤方法,包括语言筛选、标点符号和空白字符的一致性处理、连续标点符号的去重、标点符号比例过滤以及数据长度过滤,以提升数据质量。此外,通过困惑度过滤和精确与模糊去重,进一步优化数据集的纯净度。最后,通过数据评估,从语言质量、信息内容、新颖性、连贯性和纯净度五个维度对数据进行评分,确保数据集的高质量。
特点
FinPile数据集以其高质量和安全性著称,通过多层次的预处理步骤,确保数据的纯净和适用性。数据集特别注重语言质量和信息内容的丰富性,通过详细的评分标准,确保每条数据都能为模型提供有价值的训练材料。此外,数据集的构建过程中,精确与模糊去重的结合,使得数据集在保持多样性的同时,避免了重复和冗余。
使用方法
使用FinPile数据集时,首先需安装推荐的Python版本3.11.4,并通过pip安装相关依赖。数据预处理阶段,用户可根据需求选择不同的预处理脚本,如去除个人信息、敏感词过滤、规则过滤等。在数据评估阶段,用户可以通过提供的评估脚本,对数据进行多维度的评分。此外,数据集的构建和使用过程中,提供了详细的示例代码和参数说明,便于用户快速上手和定制化使用。
背景与挑战
背景概述
FinPile数据集是由一支专注于金融领域的研究团队创建的,旨在提供一个高质量、安全且开源的中文金融语料库。该数据集的构建始于对金融领域文本数据的深入分析,旨在解决现有金融语料库在数据质量和安全性方面的不足。主要研究人员和机构通过系统化的数据清洗和处理流程,确保了数据集的高质量和安全性,从而为金融领域的自然语言处理研究提供了坚实的基础。FinPile的发布不仅填补了中文金融语料库的空白,还为相关领域的研究提供了新的资源和工具,推动了金融科技的发展。
当前挑战
FinPile数据集在构建过程中面临多项挑战。首先,数据隐私保护是一个核心问题,需要通过去除个人信息的步骤来确保数据的安全性。其次,数据质量的提升涉及多层次的过滤和处理,包括敏感词过滤、规则过滤、困惑度过滤以及文本去重等,这些步骤要求高度的技术精确性和计算资源。此外,数据评估的复杂性也是一个挑战,需要从语言质量、信息内容、新颖性、连贯性和纯度等多个维度对数据进行全面评估,以确保数据集的高质量和适用性。这些挑战不仅考验了数据处理的技术能力,也反映了数据集构建过程中的复杂性和多样性。
常用场景
经典使用场景
FinPile数据集在金融领域的自然语言处理任务中展现了其经典应用。通过该数据集,研究者能够训练和评估金融文本的分类、情感分析和命名实体识别模型。其高质量的预处理步骤确保了数据的安全性和纯净性,使得模型在处理金融文本时能够达到更高的准确性和鲁棒性。
实际应用
FinPile数据集在实际应用中广泛用于金融科技公司的文本分析和风险管理。通过该数据集训练的模型,能够有效识别和分类金融文本中的关键信息,如市场情绪、投资建议和风险预警,从而帮助金融机构提升决策效率和风险控制能力。
衍生相关工作
基于FinPile数据集,研究者们开发了多种金融文本分析工具和模型,如金融情感分析模型、市场预测模型和智能客服系统。这些工作不仅提升了金融领域的数据处理能力,还为相关领域的研究提供了新的思路和方法,推动了自然语言处理技术在金融领域的深入应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集