快好知 kuaihz订阅观点

 

预测危险未知数——事故预防多维度分析

针对当前生产和生活中面临的安全事故问题,利用当前发展迅速的DM(Data Mining)技术,通过对事故信息的多维度分析,实现监测系统的事故预测,提高了监测系统的性能,形成安全预警机制。

事故预测需要获取有意义和可靠的信息,大量原始信息流必须在危机期间进行分析和处理。

基于以上背景,tecdat研究人员重点关注事故情报数据的收集并分析相关信息,通过对时间、地点、语义等不同维度的分析得到有价值的信息,并且尝试通过机器学习方法对事故发生进行预测。

▍时间维度事故分析

通过时间维度(日期和时间)的事故分析,我们可以洞察到不同类型的事故发生的高峰时间和高发月份,从而进行有效预防。

通过对结果的可视化,可以发现不同时间和月份的事故发生率有一定的差异,因此在后续的预测模型中可以构建相应的时间伪变量从而提高精度。

▍不同事故类型

通过对所有事故数据类型的占比分析,我们可以发现出行的事故发生率是最高的,也远远高于其他类型,其次是触电事故等。(注:部分事故重属多个类型)

事故报告语义分析

通过对事故报告的语义分析,我们可以发现报告中频繁出现的关键词,从中洞察到某类事故发生后通常会关联到哪些关键词,分析其背后的原因,从而进行有效的预防。

▍安全事故预测模型

在获得事故的不同维度基本特征之后,我们通过SVM算法使用这些特征来预测不同类型的事故发生的可能性,采取有针对性的措施,避免未知事故发生带来的损失,达到补救的效果。

▍技术

SVM(Support Vector Machine)用于构建、验证和测试数据集的模型。

在Spark / MLLib / Scikit-Learn / HDFS中重构实现处理较大的数据集。

▍结果

模型预测客户流失的精度精度达到82.5%。

版权声明:为拓端数据原创文章,未经允许不得转载!

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:多维度  多维度词条  未知数  未知数词条  事故  事故词条  预防  预防词条  危险  危险词条