anonymousparrot01/SubmissionData
收藏Hugging Face2023-06-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anonymousparrot01/SubmissionData
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从393,542家公司的1,788,413个网页中提取的文本内容。这些公司包括小型、中型和大型国际企业,包括上市公司。数据集提供了相应的标准行业分类(SIC)标签`sic4`。文本内容包括2014年至2021年期间网站上的所有文本信息,并且仅包含通过FastText语言检测API筛选出的英文文本。数据集的结构包括实例标识符`id`、公司标识符`cid`、网站文本`text`和4位SIC代码`sic4`。
该数据集包含从393,542家公司的1,788,413个网页中提取的文本内容。这些公司包括小型、中型和大型国际企业,包括上市公司。数据集提供了相应的标准行业分类(SIC)标签`sic4`。文本内容包括2014年至2021年期间网站上的所有文本信息,并且仅包含通过FastText语言检测API筛选出的英文文本。数据集的结构包括实例标识符`id`、公司标识符`cid`、网站文本`text`和4位SIC代码`sic4`。
提供机构:
anonymousparrot01
原始信息汇总
数据集概述:CompanyWeb
数据集描述
数据集总结
- 内容来源:1,788,413个公司网页的文本内容,涉及393,542家公司。
- 公司类型:包括小型、中型和大型国际企业,包括上市公司。
- 附加信息:提供标准行业分类(SIC)标签
sic4。 - 文本时间范围:2014年至2021年。
- 语言过滤:仅包含英语文本,通过FastText语言检测API进行筛选。
支持的任务和排行榜
- 信息待补充
语言
- 语言:英语(en)
数据集结构
数据实例
- 实例数量:1,789,413
- 公司数量:393,542
- 时间范围:2014-2021
数据字段
id:实例标识符(字符串)cid:公司标识符(字符串)text:网站文本(字符串)sic4:4位SIC(字符串)
数据分割
- 信息待补充
数据集创建
数据收集和规范化
- 信息待补充
源语言生产者
- 信息待补充
注释
- 注释过程:信息待补充
- 注释者:信息待补充
个人和敏感信息
- 信息待补充
使用数据的考虑
数据集的社会影响
- 信息待补充
偏见的讨论
- 信息待补充
其他已知限制
- 信息待补充
附加信息
数据集管理员
- 信息待补充
许可信息
- 许可:cc-by-nc-sa-4.0
引用信息
bibtex @misc{title_year, title={TITLE}, author={AUTHORS}, year={YEAR}, }
贡献
- 信息待补充



