scholarly360/indian_ipo_prospectus_data
收藏Hugging Face2023-08-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/scholarly360/indian_ipo_prospectus_data
下载链接
链接失效反馈官方服务:
资源简介:
招股说明书文本挖掘对于投资者社区识别主要风险因素和评估IPO期间筹集资金的使用非常重要。该数据集的作者从印度市场监管机构网站下载了100份招股说明书。数据集包含100份招股说明书的URL和OCR文本。此外,作者还发布了一个Roberta语言模型和句子转换器供使用。
招股说明书文本挖掘对于投资者社区识别主要风险因素和评估IPO期间筹集资金的使用非常重要。该数据集的作者从印度市场监管机构网站下载了100份招股说明书。数据集包含100份招股说明书的URL和OCR文本。此外,作者还发布了一个Roberta语言模型和句子转换器供使用。
提供机构:
scholarly360
原始信息汇总
数据集卡片 for Dataset Name
数据集描述
数据集概述
Prospectus文本挖掘对于投资者社区识别主要风险因素和评估IPO期间筹集金额的使用非常重要。该数据集作者从印度市场监管机构网站下载了100份prospectus。数据集包含100份prospectus的URL和OCR文本。此外,作者发布了一个Roberta语言模型和句子转换器供使用。
支持的任务和排行榜
N.A.
语言
ENGLISH
数据集结构
数据实例
[更多信息需要]
数据字段
数据集包含4列:
title_prospectus: IPO prospectus的标题href_prospectus: HTML的位置pdf_prospectus: prospectus的PDF文件content_whole_prospectus: prospectus的OCR文本
数据分割
N.A.
数据集创建
策划理由
Prospectus文本挖掘
源数据
初始数据收集和规范化
[更多信息需要]
源语言生产者
[更多信息需要]
注释
注释过程
[更多信息需要]
注释者
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据的考虑因素
数据集的社会影响
这将帮助投资者和商业银行社区以更自动化的方式探索prospectus,从而节省时间。
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
[更多信息需要]
引用信息
bibtex @misc{ROBERTA GOES FOR IPO: PROSPECTUS ANALYSIS WITH LANGUAGE MODELS FOR INDIAN INITIAL PUBLIC OFFERINGS, author = {Abhishek Mishra and Yogendra Sisodia}, title = {ROBERTA GOES FOR IPO: PROSPECTUS ANALYSIS WITH LANGUAGE MODELS FOR INDIAN INITIAL PUBLIC OFFERINGS}, year = {2022}, url = {https://aircconline.com/csit/papers/vol12/csit121905.pdf}, }
贡献
由作者Scholarly360制作。



