yelp_review_full|自然语言处理数据集|评论分析数据集
收藏yelp_review_full数据集上lora微调ChatGLM-6B-base
1. 文件夹介绍
- bash:存放linux系统训练、测试、导出模型的.sh脚本
- data_process:设计prompt并处理数据集的脚本
- fig:训练时的测试集与验证集loss图像
- LLaMA-Factory:微调框架
- report:任务报告
- slurm-out:提交作业后的计算节点输出
- test-result:测试输出结果处理,其中有对F1-score指标的计算
2. 微调后模型性能与微调前的性能比较
- 评价指标:采用三种不同的F1-score(micro、macro、weighted)作为评价指标。
F1-score | Origin | Finetuned |
---|---|---|
micro | 0.406 | 0.695 |
macro | 0.183 | 0.579 |
weighted | 0.403 | 0.695 |
- 结论:微调前后性能发生显著变化,认定微调结果是有效的。

历史航班准点率
航班在最近30天里准点程度的参数综合,反映了该航班可能延误的概率指数。具体计算方法:在最近30天内,航班降落时间比计划降落时间(航班时刻表上的时间)延迟半小时以上或航班取消的情况称为延误,将出现延误情况的航班数量除以30天内实际执飞的航班数量得出延误率,准点率=1-延误率。每日全面更新一次。
苏州大数据交易所 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
有害气体检测设备调试自动化系统市场集中度评价数据
有害气体检测设备调试自动化系统作为保障工业安全生产、预防重大事故的核心技术装备,在石油化工、矿山开采、市政管网和环保监测等领域发挥着不可替代的作用。特别是在应对有毒有害气体泄漏、爆炸极限预警等高风险场景时,其智能化调试、多参数协同分析的特性,不仅能显著提升检测精度和响应速度,还能通过预防性维护大幅降低安全事故发生率。随着工业安全法规日趋严格和智能化监测技术的快速发展,该系统市场需求呈现加速增长态势。评价该市场的集中度,对于把握行业竞争格局、优化技术研发方向、制定精准的市场开发策略以及推动智能安全监测技术创新具有重要战略价值。1.数据采集:收集公司有害气体检测设备调试自动化系统在不同地区的销售数据,具体包括:时间、系统名称、区域、客户编号、销售额/万元、总销售额/万元。 2.数据处理:去除异常值和重复数据,确保数据的准确性和可靠性。将客户的销售额数据转换为市场份额(Si),即销售额占总销售额的比例。 3.具体计算过程和公式:市场份额计算:Si = 客户销售额 / 总销售额,市场集中度指数(CR)计算:CR = ∑(Si)^2,其中Si代表第i个客户的市场份额(销售额占总销售额的比例)。 4.数据分类分级应用:根据CR指数的大小,CR指数的取值范围为0到1,将市场集中度分为高集中度(0.7≤CR≤1)、中集中度(0.4≤CR<0.7)和低集中度(0≤CR<0.4)。
浙江省数据知识产权登记平台 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录