如何接手一个新业务的运维工作

作者&投稿:弘鸦 (若有异议请与网页底部的电邮联系)
~

丑话说前头

先跟研发leader沟通,灌输运维理念,丑话说在前头,我们不做保姆式运维,我们会致力于线上服务安全、稳定、低成本、快速迭代,从运维视角提高产品力。开发机、测试环境,研发自己搞,我们可以协助帮忙,做专业的咨询服务,想让我们直接操刀开发环境的变更,免谈!

业务概要了解

了解业务相关的人,对应的研发同学、研发leader、测试同学、测试leader、产品经理分别是谁,联系方式存下来,拉个群,出了问题可以找到对应的人。

了解服务是干啥的,解决了什么问题,业界有对标的开源产品吗,方便我们快速认识这个产品。

了解服务的上下游,依赖哪些服务,哪些服务依赖我,对应的接口人是谁,这里先简单了解一下即可。

了解服务部署情况,部署在哪些机房,用什么语言编写的,基础网络、专线带宽、机房出口是否靠谱,是否曾因基础设施导致过问题,当前主要痛点是什么。

业务串讲

要求研发同学(或者上一任运维同学)准备PPT,做一个业务串讲,讲解一些研发同学希望传达给运维同学的信息,讲解一些运维同学希望从研发这得到的信息。比如:详细部署拓扑、服务整体架构、数据流、提测变更流程、监控方式、部署到了哪些机器、机器登录方式、每个机器上是什么模块、OS参数是否有调优,考量是什么、用到了哪些第三方软件,考量是什么,比如为啥用了tomcat而不是resin、相关wiki、故障处理预案、常见故障、当前线上问题……等等

如果业务有单点,不接,让研发改造。如果运维的老板的老板强制要求,丑话说前头:因单点导致的问题,运维不背锅。

资产梳理

正式准备接手,第一步,梳理资产。比如用到了哪些域名,这些域名对应哪些业务、哪些虚IP,分别是提供了什么服务、哪些机器,分别部署了什么模块、业务在哪些机房、用了多少带宽、总带宽情况、是否有其他业务共用争抢。

机器需要拿到更详尽的信息,比如机器配置、机架位、IP、管理卡IP等等,公司应该有个CMDB供查询。如果没有,运维同学,需要你去构建这个CMDB。

后面要考虑机器是否需要有备机、备件,机型是否可以统一。

基础监控

知道有哪些资产了,就可以对这些资产做监控了,比如域名连通性监控/延迟监控、虚IP的连通性监控/延迟监控、机器宕机监控、机器硬件监控、sshd/crond等系统进程监控、系统运行的进程总数监控、系统参数配置监控,可以参看我之前的文章《 完备的监控应覆盖什么 》

服务梳理

吃透之前串讲时给的架构图、数据流图、部署拓扑图。从运维层面,最好还要知道公司网络拓扑图。

了解每个模块的情况,部署在哪些机器上,部署在哪个目录,用什么账号启动的,日志打到哪里了,用什么语言编写的,怎么上线的,主要吃CPU资源还是内存还是磁盘还是IO,需要预留多少资源,平时利用率是多少,应该配置多大的阈值做监控,是否需要watchdog自动拉起,日志里出现哪些关键字需要报警,以及其他各种需要注意的问题。

业务监控

基本的进程、端口存活性监控,机器利用率监控、日志关键字监控、日志不滚动监控、关联的服务的监控等等,后面会做API粒度的监控,来推动业务优化。

标准化改造

机器命名方式、操作系统发行版、OS版本、第三方软件,比如jdk、tomcat、nginx,都要统一,做标准化方案。

服务扩容、变更、下线做一键化,每次升级只需要给个版本号即可,此时研发操作还是运维操作效果一样,故而可以交给研发上线,释放运维人力,权限要控制好。

重复的常规操作也要固化成脚本,一键完成。

梳理故障自愈场景,看平时有哪些故障的处理方式是固定的,抽象为脚本,报警之后自动触发,无人值守处理。

公司如果有一些基础设施,比如名字服务、MQ、日志平台,推动研发改造,将新服务接入。如果公司还没有这些基础设施,作为运维这个角色,可以着手搞起。

SOP梳理

故障预案是一个非常重要的事情,线上没出故障之前,就应该提前去想,服务可能会出什么故障,如果真出了,应该如何处理,把处理步骤提前记录下来。毕竟,线上出故障的时候,人都比较紧张,直接看着预案处理,就踏实不少,不容易出错。

故障演练

光有预案没有演练,是不靠谱的,没有经过验证的预案是不可信任的。所以,搞个放火演习,把模块搞挂试一把,把机器搞挂试一把,对线上稳定性绝对会有提升。

特别是研发说这个模块挂掉,可用性肯定没影响,OK,搞挂试试先。很可能会打他脸,-_-||

有些场景演练是会有损的。这种场景还要不要演练?这个需要case by case的看,大部分情况都是要做演练会更好,毕竟,人在这盯着的时候出问题,比晚上睡着了出了问题要强太多。当然, 大规模基础网络故障这种演练,还是算了吧,通常的业务都是不具备机房级容灾的,呵呵

上面做完了,基本工作就完成了。上面很多事情都是一次性的,那未来的大把时间运维做啥?

除了再花费部分时间做线上问题处理,我们应该把主要精力来提升业务产品力。做精细化运维,还记得运维九字真言么?“安全稳定高效低成本”,这就是我们的工作方向。下面举几个例子。

再谈业务监控

上面谈到过一次业务监控,主要是一些通用的监控指标。我们对产品了解足够之后,应该做一些业务特有的监控,推动研发去做也可以,达到效果就好。

比如你运维了一个MQ,消息堆积量是需要监控滴;比如你运维了一个RPC服务,提供了三个接口,这三个接口的响应时长、成功率是需要监控滴;比如你运维了一个S3服务,每个桶的短期带宽增量你是需要监控滴;有那么点感觉了么? :)

API成功率、延迟统计

在流量入口的nginx做所有业务线的所有API的成功率和延迟统计,是非常有必要的。把成功率比较低的TopN找出来,把延迟比较大的TopN找出来,让业务去优化。老板会喜欢这个的。

线上问题梳理

整理线上所有问题,挨个解决,运维可以搞定的运维搞定,运维搞不定的找研发要排期,每周解决了多少问题,还有多少问题待解决,用周报的方式体现出来。

成本优化

通过服务混部、或者统一的资源调度平台来节省机器资源,一台机器便宜的也好几万呢,这个事是比较容易有产出的。

容量规划

容量规划和成本优化实际是紧密相关的,容量规划的重点是根据自然增量和运营需求,提前规划准备相应的容量,容量可能包括带宽、专线、网络设备、机器等等;当业务量下来的时候,可以腾挪相关资源支持其他业务线,让这些硬件尽量满负荷运转,物有所值。

业务精细化运维可以想出各种事情来搞,除了做这事,另一个需要长期投入的是构建运维基础平台,像什么监控系统、部署系统、产品库、资源利用率平台、域名管理、四七层接入配置平台、日志平台、Trace系统等等等等,嗯,其实运维还是挺忙的。

关于沟通

最后说一点,接手一个新业务运维,势必与研发有各种沟通,每次沟通都要写会议纪要,发邮件出来,跟进人是谁,时间点是啥时候都要写明白,邮件发送双方团队邮件组,cc各方老大。事后关键节点做check,如未完成,线下沟通,达成一致后追此邮件给结论,说明延期原因以及新的时间点。如果沟通不畅,让老大去协调。




创业是指什么
创业是指开始创立或接手一项事业或商业活动的过程。创业是一个广泛而复杂的主题,涉及多个方面和要素。以下是关于创业的详细解释:1. 创业的基本定义:创业是一种通过创新、创造或发掘机会来建立新企业、开展新业务或开发新产品的过程。创业者通常承担一定的风险,通过提供市场所需的产品或服务来获取利润并...

本人想接手一家别人转让的公司,请问有什么注意事项
无论是新手创业,还是老店扩大规模,接手别人转让的店面都是一种行之有效的途径。我们怎样才能合理估算店面价值,规避转让风险,让接手到的店面物有所值呢?应注意以下问题: 首先要考虑房屋产权和使用期限,在店铺转让的过程中,房屋产权及使用期限的问题是接手者首先要考虑的。 接手一个新店面的时候,最好先对当地城镇规划...

当HRBP接手一个新部门时…
而能提出解决方案的,就要求HRBP对业务的熟悉度非常高,只有清楚了解业务和团队的前提下,HRBP才能做出精准的诊断,定位到关键问题,这才是提出有效解决方案的基础。基于这个递进的逻辑,我认为当一位HRBP接手一个新部门时,要想科学有效地开展自己的BP工作,整体应分三个阶段进行:熟悉业务、分析诊断、解决...

新业务员怎么找到客户?
3、动用身边的人脉资源,一点一滴积累,给自己树立信心。4、学会利用工具,现在是互联网时代,移动互联网也已经到来。5、训练自己的沟通能力和表达能力,同时要多提高自己的理解能力和领悟能力。业务员:业务员是指在组织中担负具体专项经济业务,如生产、计划、跟单、财会、统计、物价、广告等具体业务的...

如何克服新工作
如何克服新工作1 应对自己的新工作需要:首先要保持认真的态度,职场中态度很重要,特别对于新人而言,一个人的态度往往会影响到自己的职场发展,影响到自己的人际关系,也会影响到自己的工作环境。应对自己的新工作需要:保持良好的符合岗位角色的外在形象。不管是男性还是女性,刚刚接手一个新工作的时候,...

我是一个对广告业务完全不懂的新手,现在我是从事平面广告的业务员,我该...
我是一个对广告业务完全不懂的新手,现在我是从事平面广告的业务员,我该如何做好这方面的工作呢..我是一个比较自信的女孩..我相信没有什么难倒我.可是我对这方面不怎么了解...我要从何... 我是一个对广告业务完全不懂的新手,现在我是从事平面广告的业务员,我该如何做好这方面的工作呢..我是一个比较自信...

业务员如何从新手走到成功?
很多刚从学校毕业的业务新手,一下市场,就想管理多大多大的区域,就想做多好多好的销售业绩。业务新手有这些想法固然是好事情。由于受社会经验、专业知识、销售技能等因素的制约,业务新手要马上单独运作和管理好一个县级或者市级市场甚至更大区域的市场,难度很大。业务新手刚刚接手业务时,只有从简单做起...

销售的一些话术
2、要懂得自己的产品,这一点相当重要,没有客户愿意和不懂产品的业务人员打交道,因为你根本无法说服客户购买你的产品。 业务人员刚接手新产品时须了解以下内容: 1、公司的核心业务是什么? 2、公司的核心竞争力是什么? 3、公司的组织核心是什么? 4、公司的客户是谁? 5、公司客户所需要的服务是什么? 6、满足...

我是一个刚接触业务的新人,要怎样成为一个真正的业务员??
一个连产品都不熟悉的业务人员,能将产品推销给客户吗?会赢得客户的信任吗?从以下方面来熟悉产品:1. 如果是生产型企业,业务人员多到生产车间和样品制作部去;如果是贸易企业,多与工厂负责人沟通并将得来的资料进行比较。一方面可以了解生产工艺,另一方面可以全面了解产品相关知识。2. 如果你是接手以前业务人员手上的...

现在公司和一个大企业签合同了,我是新来的,要接手下面的大客户关系...
紧急和非紧急,根据各大客户各方面情况,建立工作计划,工作计划的内容依据你重点和紧急情况有先后顺序,安排不同的客户拜访计划和商务活动。所以说前面3项都是你工作计划的准备,最后一项才是你的工作计划。至于工作计划是什么,很简单,一是未完合同执行,二是已完合同维护,三是未来合同的挖掘。

邵阳县18655772902: 大家好,刚刚接手商业企业的运营管理工作,谁能帮我理下思路?谢谢! -
诸葛闻祺达: 作为商业企业而言,我向您所主管的应该是监控着一块,也就是说与行政、业务和财务部门的只能关联.运营分析是针对业务运营的情况判断和发现改善的问题、新的机会点和业务流程的数据积累;价格审核,无疑是监控运营了;合同审核是对...

邵阳县18655772902: 接手光伏电站运维业务需要了解什么电站哪些资料
诸葛闻祺达: 既然接手,就要整个的施工、验收资料.便于今后维修维护保养.关于电站还很专业.

邵阳县18655772902: 如果某天领导有安排你去做其他项目,你手头的工作该如何交接给下一个接手你项目的人? -
诸葛闻祺达: 正常交接.资料、通讯录、材料、场地、职能部门等交代清楚就可以了.

邵阳县18655772902: 如何最快的接手新工作? -
诸葛闻祺达: 尽快熟悉业务,熟悉人员,一边熟悉,一边开始新的工作.

邵阳县18655772902: 如何顺利接手一个中途项目 -
诸葛闻祺达: 要想成为经济浪潮中的常青树,企业就要不断的进行创新和变革,进行战略方向、组织结构和人员结构的调整.而这些改变,常常使得员工感觉到失业的危机、工作的压力.而一旦企业的战略规划和内部管理都跟不上外部环境的变化,使员工觉...

邵阳县18655772902: 如何接手一个中途项目 -
诸葛闻祺达: 休完产假回来,被安排接手另外一条产品线的一个项目,并且是这个项目的二期,感觉挑战比较大,虽然比不上接手传统行业中途项目的挑战,但多多少少也给我带来了新的体验. 首先,这个团队我不是那么熟悉.那么要在一个新的团队短时间...

邵阳县18655772902: 怎样快速接手一个企业?
诸葛闻祺达: 如果你是企业的一个领导者,要接手一个新的行业,我建议你从企业的整体入手,主管财务的会计,一定要留下,因为企业的管理模式及运做行程,会计是了如指掌的,还有就是原企业的副职领导,这些副职领导,要讲究方法重用这些人,生产车间的主要领导及供销业务主管,你要在各方面以大局为重拢住人心,其余那些,由他们为你处理,在刚接手时期,你一定要静观其辨,不可轻易去批评和表扬一个人,记住,沉默代表一切.

邵阳县18655772902: 运维工作中最重要的是什么? -
诸葛闻祺达: 1、安全,公司的运维首先应当将安全放在第一位.安全漏洞,信息泄露这些都会关系到公司的未来发展甚至是生死存亡,发生在互联网公司的信息泄露事件不在少数,都给这些公司造成很大的负面影响,要想挽回这些影响资金上的付出是很大...

邵阳县18655772902: 如何做好ERP系统一级运维工作 -
诸葛闻祺达: 做好一级运维工作的关键因素 1、重视程度 无论是由关键用户还是由IT人员组成一级运维团队,都应该对运维工作给以足够的重视.在系统上线阶段运维人员肩负着很大的责任,决定着系统是否能否上线成功,如果一级运维工作做的不好,会...

邵阳县18655772902: 一个好的运维人员应该养成好的运维习惯,以下哪些是好的运维习惯 -
诸葛闻祺达: 1、沟通 2、备份 3、偷懒,当运维到整个工作都不需要你去操心的程度,你自学时间就很多了. 4、在解决问题后我们应该去想为什么,怎么做下次不再发生,而不是记录下来等下次出现时解决.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网