chenghao/sec-material-contracts-qa
收藏Hugging Face2024-06-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/chenghao/sec-material-contracts-qa
下载链接
链接失效反馈官方服务:
资源简介:
EDGAR Document Question Answering数据集包含800多个EDGAR合同,这些合同包含PDF图像和由OpenAI GPT-4o模型提取的关键信息。关键信息包括合同签署日期、生效日期、到期日期、合同方地址、合同方名称、对方地址、对方名称、对方签署人姓名、对方签署人职位、自动续约、管辖法律、法院地点、支付频率、支付条款、续约条款、合同期限、因故终止、方便终止、终止通知期、选择退出期限和合同价值等。原始合同是从2024年1月1日之后上传到sec.gov的10-K/Q或8-K文件中采样的。数据集的特征包括索引HTML URL、索引文本URL、CIK、名称、类型、日期、序列、描述、文档类型、大小、文件名、文件URL、文件、文件内容、全文、图像、页面文本、HTML内容等。数据集的语言为英语,由众包和机器生成,许可证为Apache-2.0,属于单语言数据集,大小类别为小于1K。
EDGAR Document Question Answering数据集包含800多个EDGAR合同,这些合同包含PDF图像和由OpenAI GPT-4o模型提取的关键信息。关键信息包括合同签署日期、生效日期、到期日期、合同方地址、合同方名称、对方地址、对方名称、对方签署人姓名、对方签署人职位、自动续约、管辖法律、法院地点、支付频率、支付条款、续约条款、合同期限、因故终止、方便终止、终止通知期、选择退出期限和合同价值等。原始合同是从2024年1月1日之后上传到sec.gov的10-K/Q或8-K文件中采样的。数据集的特征包括索引HTML URL、索引文本URL、CIK、名称、类型、日期、序列、描述、文档类型、大小、文件名、文件URL、文件、文件内容、全文、图像、页面文本、HTML内容等。数据集的语言为英语,由众包和机器生成,许可证为Apache-2.0,属于单语言数据集,大小类别为小于1K。
提供机构:
chenghao



