amzn_sec_db

Hugging Face2025-05-11 更新2025-05-12 收录

下载链接：

https://huggingface.co/datasets/kurry/amzn_sec_db

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个亚马逊（AMZN）最近SEC文件（10-K，10-Q和8-K）的即用型段落级别语料库。每个段落和句子都与丰富的元数据一起存储，非常适合进行语义搜索/rag管道（ChromaDB、FAISS、Weaviate等）、金融文件问答以及金融领域嵌入的实验。数据集覆盖了最近5个财年，以滚动的窗口更新，截止到2025年5月11日。

This is a ready-to-use paragraph-level corpus of recent SEC filings for Amazon (AMZN), including 10-K, 10-Q and 8-K forms. Each paragraph and sentence is stored with rich metadata, making it ideal for semantic search/RAG pipelines such as ChromaDB, FAISS, Weaviate, etc., financial document question answering, and financial domain embedding experiments. The dataset covers the most recent 5 fiscal years, with rolling window updates, and the cutoff date is May 11, 2025.

创建时间：

2025-05-11

原始信息汇总

AMZN SEC Filings – Chunk-level Corpus (10-K, 10-Q, 8-K) 数据集概述

基本信息

名称: AMZN SEC Filings – Chunk-level Corpus (10-K, 10-Q, 8-K)
许可证: mit
语言: 英语 (en)
标签: finance, sec-edgar, chromadb, retrieval, embeddings, amzn
任务类别: text-retrieval, question-answering
规模: 100K<n<1M
源数据集: external:sec-edgar

数据集描述

内容: 亚马逊(AMZN)近期的SEC文件(10-K, 10-Q, 8-K)的分块级语料库。
时间跨度: 最近5个财政年度(截至2025-05-11)。
收集范围: 10-K, 10-Q, 8-K文件(包括MD&A摘要和可选附录)。
粒度: 约1000字符的段落和≤80个token的句子。

数据集结构

格式: Arrow格式(🤗 datasets原生格式)。
列信息:
- text: 纯文本块(段落或句子)。
- metadata: 包含FilingMetadata定义的所有字段(ticker, cik, filing_type等)。
- id: SHA-1哈希值，唯一确定性标识符。
- chunk_type: 块类型(段落/句子/摘要/附录/新闻稿)。

元数据示例

json { "ticker": "AMZN", "cik": "0001018724", "company_name": "AMAZON.COM, INC.", "filing_type": "10-K", "filing_date": "2025-02-02", "filing_period": "2024-12-31", "filing_url": "https://www.sec.gov/Archives/...", "section_id": "item7", "section_title": "Management’s Discussion and Analysis", "section_level": 1, "chunk_index": 3, "chunk_count": 42, "chunk_type": "paragraph" }

预期用途

语义搜索/RAG管道(ChromaDB, FAISS, Weaviate等)。
财务文件的问答系统。
金融领域嵌入实验。

规模

总大小: ≈200-400k个块(取决于新文件)。

搜集汇总

数据集介绍

构建方式

该数据集基于美国证券交易委员会（SEC）公开的亚马逊公司（AMZN）财务报告，包括10-K、10-Q和8-K等文件类型，时间跨度为最近五个财政年度。数据以段落和句子为单位进行分块处理，每块文本均附带丰富的元数据，如公司代码（CIK）、文件类型、报告日期、章节标题等。数据存储采用Arrow格式，支持高效的内存访问和流式处理，确保数据的可扩展性和易用性。

特点

数据集的特点在于其细粒度的文本分块和详尽的元数据标注。每块文本（段落或句子）均附带唯一的SHA-1哈希标识符，并包含文件类型、章节信息、分块类型（如段落、句子、摘要等）等关键字段。这种结构设计使其特别适合语义搜索、问答系统以及金融领域嵌入模型的实验。数据集覆盖了亚马逊近五年的财务报告，为研究提供了时效性强且全面的数据支持。

使用方法

该数据集可直接用于语义搜索、检索增强生成（RAG）管道以及金融领域的问答系统。用户可以通过Hugging Face的`datasets`库加载数据，支持流式处理以节省内存。数据中的元信息可用于过滤特定类型的文件或章节，例如聚焦于管理层讨论与分析（MD&A）部分。此外，数据集兼容ChromaDB、FAISS等向量数据库，便于构建高效的检索系统。

背景与挑战

背景概述

AMZN SEC Filings – Chunk-level Corpus数据集由金融信息处理领域的研究团队构建，专注于亚马逊公司（AMZN）向美国证券交易委员会（SEC）提交的定期报告文件。该数据集收录了最近五个财年的10-K、10-Q和8-K文件，以段落和句子级别的粒度进行结构化处理，并附有丰富的元数据。其核心研究问题在于如何高效提取和利用金融文本中的语义信息，为语义搜索、问答系统和金融领域嵌入模型提供高质量的基础数据。该数据集对金融信息检索、自然语言处理在金融领域的应用具有显著的推动作用，成为相关研究的重要基准资源。

当前挑战

该数据集面临的主要挑战包括两方面：在领域问题层面，金融文本具有高度的专业性和复杂性，如何准确理解并提取其中的关键信息（如财务指标、风险因素等）是核心难题；在构建过程层面，SEC文件的非结构化特性要求开发复杂的文本分割和元数据标注流程，同时保持数据的完整性和一致性。此外，金融术语的时效性要求数据集必须持续更新以反映最新监管要求和市场动态，这对数据维护提出了较高要求。

常用场景

经典使用场景

在金融信息检索领域，AMZN SEC Filings数据集以其精细的段落和句子级划分，成为构建语义搜索系统的理想选择。该数据集特别适合用于开发基于ChromaDB、FAISS等向量数据库的检索增强生成（RAG）管道，能够高效支持对亚马逊公司财务文件的精准查询和内容提取。

实际应用

在商业智能实践中，该数据集可直接应用于上市公司财务风险监测系统，辅助分析师快速定位关键财务指标变化。投资机构可利用其构建自动化财报解析工具，实时追踪亚马逊公司的经营状况披露，为投资决策提供数据支持。

衍生相关工作

基于该数据集的典型研究包括财务文本嵌入表示优化（FinBERT等领域自适应模型）、SEC文件自动摘要生成系统，以及结合LLM的财务问答框架开发。部分工作进一步扩展了数据应用范围，探索了跨公司财务风险对比分析等创新方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集