bert-base-chinese|自然语言处理数据集|AI伦理数据集

阿里云天池2025-06-03 更新2024-03-07 收录

自然语言处理

AI伦理

下载链接：

https://tianchi.aliyun.com/dataset/147007

下载链接

链接失效反馈

资源简介：

Bert-base-chinese Table of Contents Model Details Uses Risks, Limitations and Biases Training Evaluation How to Get Started With the Model Model Details Model Description: This model has been pre-trained for Chinese, training and random input masking has been applied independently to word pieces (as in the original BERT paper). Developed by: HuggingFace team Model Type: Fill-Mask Language(s): Chinese License: [More Information needed] Parent Model: See the BERT base uncased model for more information about the BERT base model. Uses Direct Use This model can be used for masked language modeling Risks, Limitations and Biases CONTENT WARNING: Readers should be aware this section contains content that is disturbing, offensive, and can propagate historical and current stereotypes. Significant research has explored bias and fairness issues with language models (see, e.g., Sheng et al. (2021) and Bender et al. (2021)). Training Training Procedure type_vocab_size: 2 vocab_size: 21128 num_hidden_layers: 12 Training Data

提供机构：

阿里云天池

创建时间：

2023-03-02

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

PROSLU

PROSLU数据集是由哈尔滨工业大学社会计算与信息检索研究中心和华为技术有限公司共同创建的，包含超过5000条中文语句，每条语句都配有详细的个人资料信息，如知识图谱、用户资料和上下文感知信息。数据集通过人工标注确保高质量，旨在解决在语义模糊的实际场景中，传统基于文本的口语理解模型可能无法准确识别意图和槽位的问题。该数据集的应用领域主要集中在提高对话系统在复杂环境下的理解和响应能力，特别是在用户意图不明确或语句具有多重含义的情况下。

arXiv 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录