samchain/BIS_Speeches_97_23
收藏Hugging Face2023-07-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/samchain/BIS_Speeches_97_23
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为BIS_Speeches_97_23,包含从1997年到2023年的12,000篇演讲,这些演讲是从国际清算银行的网站上抓取的。数据集中的每个样本由两个句子组成,如果第二个句子紧接第一个句子,则next_sentence_label为1,否则为0。负样本对是通过从其他演讲中随机选择句子构建的。数据集包含训练集和测试集,分别有773,395和136,482个样本。数据集的总下载大小为365,034,957字节,总大小为595,014,767字节。数据集适用于文本分类和标记分类任务,主要涉及经济学、金融和商业领域,语言为英语。
该数据集名为BIS_Speeches_97_23,包含从1997年到2023年的12,000篇演讲,这些演讲是从国际清算银行的网站上抓取的。数据集中的每个样本由两个句子组成,如果第二个句子紧接第一个句子,则next_sentence_label为1,否则为0。负样本对是通过从其他演讲中随机选择句子构建的。数据集包含训练集和测试集,分别有773,395和136,482个样本。数据集的总下载大小为365,034,957字节,总大小为595,014,767字节。数据集适用于文本分类和标记分类任务,主要涉及经济学、金融和商业领域,语言为英语。
提供机构:
samchain
原始信息汇总
数据集概述
数据集名称
- BIS_Speeches_97_23
数据集特征
- sequenceA: 数据类型为字符串
- sequenceB: 数据类型为字符串
- next_sentence_label: 数据类型为整数(int64)
数据集分割
- 训练集:
- 样本数量: 773395
- 存储大小: 505762257.6721524字节
- 测试集:
- 样本数量: 136482
- 存储大小: 89252509.32784761字节
数据集大小
- 下载大小: 365034957字节
- 数据集总大小: 595014767字节
许可
- Apache-2.0
任务类别
- 文本分类
- 令牌分类
语言
- 英语
标签
- 经济学
- 金融
- 商业
大小类别
- 100K<n<1M



