观澜 AIOps 智能告警分析平台
大约 3 分钟
观澜 AIOps 智能告警分析平台
项目定位
这是一个面向运维与平台团队的 AIOps 平台,解决告警太多、重复告警多、定位慢、知识散、应急流程不统一的问题。AI 负责归纳和检索,Java 负责告警流转、规则执行和统计归档。
项目思维导图
核心流程
技术架构
| 技术 | 作用 |
|---|---|
| Spring Boot | 告警、复盘、通知接口 |
| MySQL | 告警记录、规则、复盘单 |
| Redis | 告警去重、上下文、热点缓存 |
| MQ | 事件分发、通知、异步处理 |
| Elasticsearch / 向量库 | Runbook、故障手册、复盘文档 |
| Spring AI | 告警摘要、分析建议、问答 |
AI 接入点
- RAG:Runbook、故障手册、历史复盘、应急预案。
- Tool Calling:服务依赖、部署信息、告警详情、值班信息。
- Agent:摘要、归因建议、应急步骤、升级人工。
项目亮点
- 很适合讲“告警降噪”和“根因分析”。
- 能自然体现可观测性和平台工程能力。
- 适合有工作经验的表达方式。
面试追问
- 告警降噪规则怎么设计?
- 根因分析为什么不能只靠模型?
- Runbook 检索失败怎么降级?
1 分钟介绍
这个项目是一个 Java+AI 企业级项目,核心不是单独做聊天机器人,而是把大模型能力接入真实业务流程。我的讲法会先说明业务痛点,再讲 Java 后端负责流程、权限、事务和审计,最后说明 RAG、Tool Calling 和 Agent 分别解决知识检索、业务查询和多步骤编排问题。
3 分钟介绍
我会先从业务背景讲起:这个项目要解决的是传统系统中信息分散、流程依赖人工经验、处理效率不稳定的问题。整体链路上,用户先发起业务请求,Java 后端完成鉴权、参数校验、状态流转和数据落库;AI 层负责理解意图、检索知识、调用受控工具并生成草稿或建议。
技术上,项目通常会用 Spring Boot 承接核心业务接口,用 MySQL 保存业务主数据、状态记录和审计日志,用 Redis 做热点缓存、会话上下文和幂等控制,用 MQ 解耦通知、索引同步和统计任务。AI 能力上,RAG 负责检索企业知识和历史案例,Tool Calling 负责受控查询业务数据,Agent 负责编排多步骤任务。正式写操作和高风险动作不会让模型直接执行,而是进入人工确认或 Java 业务服务事务边界。
面试时我会重点强调三点:第一,AI 只是辅助理解和生成建议,不能绕过权限和审计;第二,所有工具调用都要做白名单、参数校验、限流和日志;第三,模型超时、无召回、低置信度或输出不合法时,要能降级到规则模板、人工处理或只展示已有业务数据。
简历一句话写法
我负责 AIOps 智能告警分析平台的 Java+AI 设计,覆盖告警归并、Runbook 检索、故障归因和应急辅助。
