ChineseWebText 2.0|中文文本数据数据集|大型语言模型数据集
收藏ChineseWebText 2.0 数据集概述
数据集概览
- 数据量: 3.8 TB
- 数据类型: 中文网页文本
- 数据特征:
- 每个文本包含质量评分
- 领域单标签和多标签
- 毒性分类和评分
数据示例
json { "text": "近日,黑龙江省高校校报协会第十四届学术年会暨校报工作交流研讨会在东北农业大学举行。我校10件新闻作品喜获2项一等奖,2项二等奖,6项三等奖……", "domain": { "single_label": "news", "multi_label": ["news", "education"] }, "toxicity": { "label": 0, "score": 1.0347155694034882e-05 }, "quality_score": 0.96044921875 }
数据字段说明
- text: 文本内容
- single_label: 领域分类模型生成的高概率标签
- multi_label: 领域分类模型生成的所有概率高于阈值的标签
- label: 毒性分类模型生成的毒性标签(0表示非毒性文本,1表示毒性文本)
- score: 毒性分类模型生成的毒性评分
- quality_score: 质量评估模型生成的质量评分
数据处理工具
- MDFG-tool: 用于构建大规模高质量中文数据集的工具链
- 阶段1: 预处理
- 文本提取
- 数据长度过滤
- 字符比例过滤
- 敏感词过滤
- 内部重复过滤
- 阶段2: 质量评估
- BERTEval模型用于文本质量评分
- 阶段3: 领域评估
- 规则和模型结合的领域分类系统
- 阶段4: 毒性评估
- FastText模型用于毒性分类和评分
- 阶段1: 预处理
引用
shell @misc{zhang2024chinesewebtext20largescalehighquality, title={ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information}, author={Wanyue Zhang and Ziyong Li and Wen Yang and Chunlin Leng and Yinan Bai and Qianlong Du and Chengqing Zong and Jiajun Zhang}, year={2024}, eprint={2411.19668}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.19668}, }

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
Awesome JSON Datasets
一个精选的无需认证的JSON数据集列表。
github 收录