bhuvi/bcorp_web
收藏Hugging Face2023-08-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bhuvi/bcorp_web
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含使用Hyphe工具在B Corp网站上爬取的网页文本。Hyphe在B Corp网站上发现了超过1000个外链,其中许多实体是B Corp认证的组织。该数据集包含了这些组织的网页文本。由于B Corp认证组织的列表是动态的,因此本数据集仅选择了大约600个组织,且没有特定的选择标准。数据集主要包含英文文本,但也包含法语和西班牙语的网页数据。每个数据实例包含一个由BCorp认证的组织名称、其网页文本、在父组织网页文本中提到的其他B Corp认证组织列表以及它们所属的行业。数据集只有一个训练集分割。
该数据集包含使用Hyphe工具在B Corp网站上爬取的网页文本。Hyphe在B Corp网站上发现了超过1000个外链,其中许多实体是B Corp认证的组织。该数据集包含了这些组织的网页文本。由于B Corp认证组织的列表是动态的,因此本数据集仅选择了大约600个组织,且没有特定的选择标准。数据集主要包含英文文本,但也包含法语和西班牙语的网页数据。每个数据实例包含一个由BCorp认证的组织名称、其网页文本、在父组织网页文本中提到的其他B Corp认证组织列表以及它们所属的行业。数据集只有一个训练集分割。
提供机构:
bhuvi
原始信息汇总
数据集概述
名称: BCorp Web Data
内容: 该数据集包含使用Hyphe从B Corp网站爬取的网页文本。数据集涵盖了约600家B Corp认证组织的网页文本,这些组织通过B Corp网站的超过1000个出链被发现。
语言: 主要为英语,也包含法语和西班牙语的网页数据。
数据集结构
数据实例
每个数据实例包含以下信息:
- 组织名称: B Corp认证的组织名称。
- 网页文本: 该组织的网页内容。
- 关联组织列表: 网页文本中提及的其他B Corp认证组织。
- 所属行业: 组织所在的行业。
数据字段
- name: 组织名称。
- text: 网页文本。
- rel: 网页文本中提及的其他B Corp认证组织列表。
- shape: 组织所属的行业。
数据分割
- 分割方式: 仅有一个train分割。



