five

anonymousparrot01/SubmissionData

收藏
Hugging Face2023-06-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anonymousparrot01/SubmissionData
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从393,542家公司的1,788,413个网页中提取的文本内容。这些公司包括小型、中型和大型国际企业,包括上市公司。数据集提供了相应的标准行业分类(SIC)标签`sic4`。文本内容包括2014年至2021年期间网站上的所有文本信息,并且仅包含通过FastText语言检测API筛选出的英文文本。数据集的结构包括实例标识符`id`、公司标识符`cid`、网站文本`text`和4位SIC代码`sic4`。

该数据集包含从393,542家公司的1,788,413个网页中提取的文本内容。这些公司包括小型、中型和大型国际企业,包括上市公司。数据集提供了相应的标准行业分类(SIC)标签`sic4`。文本内容包括2014年至2021年期间网站上的所有文本信息,并且仅包含通过FastText语言检测API筛选出的英文文本。数据集的结构包括实例标识符`id`、公司标识符`cid`、网站文本`text`和4位SIC代码`sic4`。
提供机构:
anonymousparrot01
原始信息汇总

数据集概述:CompanyWeb

数据集描述

数据集总结

  • 内容来源:1,788,413个公司网页的文本内容,涉及393,542家公司。
  • 公司类型:包括小型、中型和大型国际企业,包括上市公司。
  • 附加信息:提供标准行业分类(SIC)标签sic4
  • 文本时间范围:2014年至2021年。
  • 语言过滤:仅包含英语文本,通过FastText语言检测API进行筛选。

支持的任务和排行榜

  • 信息待补充

语言

  • 语言:英语(en)

数据集结构

数据实例

  • 实例数量:1,789,413
  • 公司数量:393,542
  • 时间范围:2014-2021

数据字段

  • id:实例标识符(字符串)
  • cid:公司标识符(字符串)
  • text:网站文本(字符串)
  • sic4:4位SIC(字符串)

数据分割

  • 信息待补充

数据集创建

数据收集和规范化

  • 信息待补充

源语言生产者

  • 信息待补充

注释

  • 注释过程:信息待补充
  • 注释者:信息待补充

个人和敏感信息

  • 信息待补充

使用数据的考虑

数据集的社会影响

  • 信息待补充

偏见的讨论

  • 信息待补充

其他已知限制

  • 信息待补充

附加信息

数据集管理员

  • 信息待补充

许可信息

  • 许可:cc-by-nc-sa-4.0

引用信息

bibtex @misc{title_year, title={TITLE}, author={AUTHORS}, year={YEAR}, }

贡献

  • 信息待补充
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作