阿里云AIOps参赛记录

记不太清楚是从什么渠道得知阿里云举办这次比赛了,印象深刻的是看到比赛题目后就马上点进去查看了详细的赛制和要求。因为平时工作都侧重在运维领域,对于如何从监控数据中发现异常点这个题目非常感兴趣,看到「数据洞察创新挑战赛之智能运维赛」这个方向后便毫不犹豫的报名参加了。

我是一名运维工程师,平时很少能够实际编写异常检测的程序来查找定位系统中的故障,而阿里云举办的这次比赛则为我们提供了绝好的学习和锻炼的机会,能够接触到海量的运维监控数据,还能够利用阿里云提供的SLS工具,通过控制台页面方便的查询、分析、可视化展示数据。

比赛开始后,官方为我们提供了说明文档、钉钉群、直播授课多种形式的引导教育,能够让我这个对于阿里云产品不是很熟悉的用户快速的创建参赛所需要的 SLS 数据。在工作中,我曾经运维管理过单位内部的 ES 集群,我非常赞叹阿里云 SLS 的性能能力,对于数亿亿计的数据能够在很短的时间内推送完成,并且提供了不亚于 Kibana 的图形化查询、分析界面。

熟悉比赛的数据也是非常有趣的体验,对于交易监控我们单位内部有一套自己的数据结构标准,看到符合 OpenTelemetry 协议的比赛数据后,有一种非常熟悉的感觉。单位内部的数据,在每个服务节点输出的数据中,会将本节点的处理耗时单独打出来,而比赛数据仅仅提供了响应耗时。这一点上,感觉这是为了比赛而埋下的伏笔。

接下来,我花了很多的时间来计算每个节点的处理耗时。感谢组织者,也提供了非常清晰的 Demo 代码。在 Demo 的帮助下,可以很轻松的生成复合比赛要求的提交结果文件。修改代码,也可以快速的提高比赛成绩。

我在使用一些智能算法、大模型算法来解决问题方面还有很多的不足,也希望通过本次比赛来积累相关的经验。希望本次比赛结束之后,官方能够将一些优秀的解题思路、代码分享出来,让更多的同学受益。

cocowool

A FULL STACK DREAMER!