巧用机器学习定位云服务器故障

发布时间：2018-09-25 22:00:14 所属栏目：外闻来源：博客园

导读：【新品产上线啦】51CTO播客，随时随地，碎片化学习背景对于每一单母机故障我们都需要定位出背后真实的故障原因，以便对相应的部件进行更换以及统计各种部件故障率的情况，因此故障定位和分析消耗的人力也越来越多。希望能借助机器学习的方法对历史故障母

1.故障分级：将故障划分等级，如一级故障(硬件故障-软件故障)，二级故障为硬件故障下更具体的故障类型。当直接对所有二级故障做分类效果不理想时，可先考虑对一级故障做分类，再对二级故障做分类，实现故障分级的效果。

2.数据不平衡：即不同类别的故障工单在数量级上不一致，数据量上相差较大，使得分类模型偏向于数量多的故障。考虑到故障工单数据不平衡的问题，可考虑将数目少的归总为一类——其他类。示例如下，九分类问题可被转化为四分类问题。但是，在工单数量严重不平衡而且故障类别多的情况下，这种归总少类样本为其他类的方法，使得模型分类效果具有较大的随机性。

3.多字特征词：原理即将文本内容按字节流进行大小为N的滑动窗口操作，形成长度为N的字节片段序列，以自动产生多字特征词。相比于分开存在，几个单词的连续出现可能会有产生不一样的意义，对分类产生影响。

4.布尔权重：CPU发生故障时，CPU多核故障和单核故障属于同一类，但多核故障会记录每一个核的情况，导致某些关键词或者格式重复出现，使得模型对于两者的相似性降低。此时，可考虑使用布尔权重代替tf-idf进行文本向量化。

后续

由于文本分类涵盖的内容较多，本文尽可能从简出发，阐述母机日志分析的大体流程，以及工程实践上的解决方案，以供交流。对于文本分类特征选择，模型参数调优和数据不平衡的更为详细的解决方法，笔者将在后续跟进。

以上内容基于roganhuang(黄荣庚) 在实习期间工作的总结。感谢运营开发组的小伙伴们的帮助，感谢学长@simbazhou，导师@lelandwu和学姐@mengnizhang给予的指导和帮助。

笔者不才。如有错误，欢迎指正!

参考链接

1.https://blog.csdn.net/zrc199021/article/details/53728499

2.https://blog.csdn.net/sangyongjia/article/details/52440063

3.http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

4.https://blog.csdn.net/lxg0807/article/details/52776183?fps=1&locationNum=10

5.https://blog.csdn.net/wangongxi/article/details/51591031

6.https://blog.csdn.net/wangongxi/article/details/51591031

【编辑推荐】

这些网络故障的处理手段，你都试过了吗
安卓手机常见WLAN网络WiFi故障问题解决大全
原来它才是引起服务器故障的罪魁祸首
机房安防系统常见故障原因及处理方法
机器学习未来将走向何方？英特尔-南大联合研究中心将给出答案

【责任编辑：武晓燕 TEL：（010）68476606】

点赞 0

（编辑：威海站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

最贵版《哈利·波特》	Meta高管团队陆续失血
多西不再掌控Twitter	换帅后的Twitter该怎么