职位描述
岗位职责
1、保障大规模K8S集群的稳定运行,可以快速定位及解决K8S集群中的问题,工作内容包含:宿主资源管理、集群生命周期管理,核心组件变更、证书管理等、巡检、重保、数据备份和恢复;
2、善于通过自动化手段提升工作效率,开发自动化工具提升oncall效率
3. 有大规模GPU集群管理经验 , 熟悉训练和推理的基本逻辑,了解机器学习的常用框架,可以快速处理GPU相关的需求和问题 。
职位要求
1、本科及以上学历,计算机或者相关专业,2年以上运维相关工作经验,有CKA证书优先;
2、精通Linux操作系统,熟悉TCP/IP、HTTP等协议,有良好的网络、存储、安全、计算机体系结构方面的知识等。
3、精通kubernetes/docker的架构技术及其内部实现原理,至少3年Kubernetes实际业务编排、管理及运维经验,有容器技术、kubernetes、Dorker等开发经验者优先。
4、熟悉Ansible等自动化运维技术,能熟练使用python/Golang其中至少一种语言运维开发,优先考虑会编写opeator者,善于通过自动化方式解决运维工作中标准操作流程。
5、具有良好沟通能力和服务意识,能够独立解决项目的问题,善于总结和编写文档。
6、有工作热情,较强的学习能力,高度的责任心、良好的沟通技巧和团队合作精神。