AIX小型机服务器巡检操作

作者&投稿:廖茜 (若有异议请与网页底部的电邮联系)
谁懂AIX小型机的巡检啊,求扫盲,留下你的QQ吧~

有什么不懂的发到这里吧,一方面有其他高手帮忙拾缺补漏,一方面可以让更多的人受益。

首先说一下关于系统运维,主要是针对大中型企业的数据中心机房,对主机存储等设备硬件故障处理,操作系统维护,网络调整,环境监控等方面的工作。由于IBM的小型机因为其运行能力强悍,在中国市场操作的很好,在各大银行、企业、税务等等企事业单位小型机的占用率是第一位的,而AIX是IBM Power小型机上的操作系统,目前还不能运行到任何其他平台,只能在Power CPU的小型机上运行,所以相对面窄了些。
作为IBM AIX工程师,未来的工作方向,一是IBM原厂,但最近几年都在裁员,进去的机会微小;一是作为一项技能成为某个企事业的系统维护人员,这往往需要看个人的社会能力,有没有合适的关系进入,现在基本没有哪个银行委培机构对口培养了;还有就是鉴于IBM原厂对设备维保费用过高,而这些小型机和存储往往是作为核心设备使用,由国内经验丰富的公司以较为低廉的价格进行承担维护,我们称作第三方维护公司,这些公司需要较多的工程师到全国各地进行驻守。
以上就是对你提问的回答,希望能对你有所帮助。

PS1:HACMP是在AIX平台上使用的集群软件;Oracle是当前排名第一的数据库软件;Linux是开源的操作系统,属于变种的UNIX,可以运行在多种平台。
PS2:还是多了解一下这行再做决定吧。

1、机器型号
# uname -uM
IBM,7029-6E3 IBM,01100550A
2、检查系统硬件设备故障灯是否有亮
3、系统错误报告
# errpt -d H -T PERM //硬件的错误报告
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
BFE4C025 0530085308 P H sysplanar0 UNDETERMINED ERROR
BFE4C025 0529091308 P H sysplanar0 UNDETERMINED ERROR
# errpt -d S -T PERM //软件的错误报告
# errpt -aj *******|more //具体的错误信息
# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件
4、有否给 root 用户的错误报告
# mail
Mail [5.2 UCB] [AIX 5.X] Type ? for help.
"/var/spool/mail/root": 5 messages 3 new 5 unread
U 1 root Thu May 15 09:53 24/884 "diagela message from p615"
U 2 root Fri May 16 04:07 24/884 "diagela message from p615"
>N 3 root Sat May 24 13:08 23/874 "diagela message from p615"
5、检查 hacmp.out, smit.log, bootlog 等
# lssrc -g cluster/#>lssrc -g cluster
Subsystem Group PID Status
clstrmgrES cluster 16334 active
一般上 hacmp.out 的位置: /usr/sbin/cluster/ 或者 /tmp/
然后找到最近的 hacmp.out 文件,察看有没有错误信息
6、文件系统检查
# df -k
Filesystem 1024-blocks Free %Used Iused %Iused Mounted on
/dev/hd4 131072 101568 23% 2268 4% /
/dev/hd2 1441792 31256 98% 36056 11% /usr
/dev/hd9var 131072 117048 11% 418 2% /var
看看有没有超过 90% 使用率的,建议用户改善
7、逻辑卷有否 "stale" 的状态
# lsvg -l rootvg
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 1 1 closed/syncd N/A
hd6 paging 4 4 1 open/syncd N/A
hd8 jfslog 1 1 1 open/syncd N/A
hd4 jfs 1 1 1 open/syncd /
hd2 jfs 11 11 1 open/syncd /usr
hd9var jfs 1 1 1 open/syncd /var
如果系统还有其他卷组,也需要察看
8、内存交换区的使用率是否超过 70%
# lsps -a
Page Space Physical Volume Volume Group Size %Used Active Auto Type
hd6 hdisk0 rootvg 512MB 1 yes yes lv

9、系统性能是否有瓶颈
# topas
# vmstat 1 10
kthr memory page faults cpu
----- ----------- ------------------------ ------------ -----------
r b avm fre re pi po fr sr cy in sy cs us sy id wa
0 0 110029 408618 0 0 0 0 0 0 4 602 75 0 1 99 0
0 0 110031 408616 0 0 0 0 0 0 1 562 54 1 0 99 0
0 0 110031 408616 0 0 0 0 0 0 3 628 84 0 0 99 0
# iostat 1 10
tty: tin tout avg-cpu: % user % sys % idle % iowait
0.0 394.0 0.0 0.0 100.0 0.0
Disks: % tm_act Kbps tps Kb_read Kb_wrtn
hdisk0 0.0 0.0 0.0 0 0
hdisk1 0.0 0.0 0.0 0 0
cd0 0.0 0.0 0.0 0 0
10、网络与通讯检查
# ifconfig -a

# netstat -in
Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll
en0 1500 link#2 0.9.6b.3e.6.ac 1964 0 534 0 0
en0 1500 192.168.0 192.168.0.11 1964 0 534 0 0
lo0 16896 link#1 267 0 413 0 0
lo0 16896 127 127.0.0.1 267 0 413 0 0
# netstat -rn //察看路由情况
Routing tables
Destination Gateway Flags Refs Use If Exp Groups
Route Tree for Protocol Family 2 (Internet):
127/8 127.0.0.1 U 7 142 lo0 - -
192.168.0.0 192.168.0.11 UHSb 0 0 en0 - - =>
# vi /etc/hosts //察看 hosts 文件有否特殊的定义
# ping ****
#lsattr -El inet0 //路由的检测
authm 65536 Authentication Methods True
hostname h24 Host Name True
gateway Gateway True
route net,,0,172.16.23.81 Route True
bootup_option no Serial Optical Network Interface True
rout6 FDDI Network Interface True
11、有否符合要求的系统备份
第一次去可以先询问客户关于备份的策略
# ls -l /image.data //看看系统有没有备份的 image 文件,记录最后备份日期
-rw-r--r-- 1 root system 9600 May 19 17:31 /image.data

# lsvg -l rootvg //察看有否符合要求的数据备份和保护
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd4 jfs 1 1 1 open/syncd /
hd2 jfs 11 11 1 open/syncd /usr
hd10opt jfs 1 1 1 open/syncd /opt
oraclelv jfs2 80 160 1 open/syncd /oracle
loglv00 jfs2log 1 1 1 open/syncd N/A
testlv jfs 10 20 1 closed/syncd /tmp/test
如何察看数据保护方式 RAID10/RAID5,RAID 的Hotspare 属性是否打开
#smitty ssaraid? Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属性是否为YES
12、系统 Dump 设置是否正确
# sysdumpdev -l
primary /dev/hd6
secondary /dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag TRUE
always allow dump FALSE
dump compression OFF
# sysdumpdev P p /dev/hd6 s /dev/sysdumpnull
# sysdumpdev -P -c
13、HACMP 测试
# /usr/sbin/cluster/diag/clconfig -v '-tr' // Cluster Verification 输出结果无Fail
# /lssrc -g cluster
14、maxpout, minpout 系统参数
如果系统中运行了HACMP
smitty chgsysy,将High/Low water mark从0/0修改为33/24
# lsattr -El sys0|grep maxpout
//maxpout 用途: 对文件指定未决 I/O 的最大数目
值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数加 1)
# lsattr -El sys0|grep minpout
//指定一个基点,在该基点处,已达到 maxpout 的程序可以继续写入文件
值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数,且大于或等于 4 小于 maxpout)
15、syncd 参数
# grep syncd /sbin/rc.boot //sync() 被 syncd 调用的间隔时间
nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &
值: 缺省值:60;范围:1 到任何正整数
显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot
更改: 更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill 来终止守护程序
syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。
诊断: 当 syncd 正在运行时,文件的 I/O 被阻塞了。
调整: 在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整
性对于 HACMP而使 syncd interval 明显缩小,会导致性能下降。
更改命令为:
#vi /sbin/rc.boot
16、aio 参数 //异步 I/O 可调参数
# lsdev -C|grep aio
察看状态是否是 available
# lsattr -El aio0
minservers 1 MINIMUM number of servers True
maxservers 10 MAXIMUM number of servers True
maxreqs 4096 Maximum number of REQUESTS True
kprocprio 39 Server PRIORITY True
autoconfig available STATE to be configured at system restart True
fastpath enable State of fast path True
# smit aio //可以更改参数
17、检查 errdaemon, srcmstr 是否正常运行
# ps -ef|grep err
# ps -ef|grep src
18、 系统硬件诊断
# diag
-> Diagnostic Routines
-> System Verification
-> All Resources
-> F7 或者 Esc+7
19、补丁程序 PTF 是否满足要求,当前系统补丁版本
#oslevel -r
5300-04
#instfix -i|grep
All filesets for 5.3.0.0_AIX_ML were found.
All filesets for 5300-01_AIX_ML were found.
All filesets for 5300-02_AIX_ML were found.
All filesets for 5300-03_AIX_ML were found.
All filesets for 5300-04_AIX_ML were found.
All filesets for 5300-05_AIX_ML were found.
# lscfg -vp //检查所有设备的微码
20、收集系统信息放到/tmp/ibmsupt
# snap -ac //运行#snap -ac,生成文件snap+s/n.pax.Z


林西县13543469988: AIX巡检时用lsvg vgdw 报0516 - 010 Volume group must be varied on; use varyonvg command. -
边界生脉: 唉,请先认真学习一下AIX吧,这是基本知识.lsvg vgdw是查看vgdw信息,vgdw必须是激活状态才行.请确认没有别的系统使用vgdw,可以用以下命令激活:varyonvg vgdw

林西县13543469988: IBM AIX小型机上面如何开启SNMP服务? -
边界生脉: AIX 5.2 选用SNMPV3, 而HACMP选用SNMP V1.在缺省的情况下,AIX5.2系统基于snmp的hacmp utility 如clstat等不能正常的运行. 可通过clstat命令验证 #/usr/es/sbin/cluster/clstat 修改的步骤如下: i. #/usr/sbin/snmpdv3_ssw -1 ii. stop/start 基于snmp的daemon 如clinfoES,clsmuxpES等. 在修改前要确认没有基于snmp v3的程序运行.察看SNMP版本:/usr/sbin>ls -l |grep snmp

林西县13543469988: 如何检查AIX小型机磁盘状态?包括正常和非正常的状态,如何检查AIX外置的磁盘状态 -
边界生脉: 简单的命令是lspv hdiskX,会有PV STATE显示,active是正常,另外lsvg -l vgname也可以看出,里面不能有stale pps,外置磁盘那就要看是什么型号的盘阵,型号有IBM、EMC、HDS还有国产的,这个就没法笼统说了

林西县13543469988: AIX p570小型机怎么查看日志文件?(最好是图形界面,不要命令行) -
边界生脉: AIX操作一般都是采用命令行的,日常维护一般看看errpt里面的输出就可以了.

林西县13543469988: aix390与400 -
边界生脉: IBM AIX没有390和400.IBM AIX是IBM小型机的操作系统.该机型以前叫RS6000,现在叫IBM System p或Power 不过IBM有OS/390 这是IBM大型机的操作系统.准确的叫IBM System z 还有IBM有AS400 这是IBM中型机的操作系统,准确的叫IBM System i

林西县13543469988: AIX中怎样去开启FTP服务器日志 -
边界生脉: 注意:FileName这个文件必须在做下一步骤前手动创建. 2.运行"refresh -s syslogd"命令刷新syslogd后台程序. 3.修改/etc/inetd.conf文件,将ftp stream tcp6 nowait...

林西县13543469988: 关于AIX培训和小型机培训 -
边界生脉: AIX 是IBM 公司的UNIX操作系统 ,小型机是指运行原理类似于PC(个人电脑)和服务器,但性能及用途又与它们截然不同的一种高性能计算机.

林西县13543469988: IBM小型机时间同步问题 -
边界生脉: 目前一般都是通过网络连接小型机的,aix默认telnet是开通的. 安装操作系统目前常用方式是通过本机显卡或hmc,很少是通过串口的了,如果既没有显卡,又没有hmc,那就只能购买个usb转串口配件,进行了,那根串口线不好搞,好像现在不配备了.

林西县13543469988: 什么是IBM小机,用途是什么? -
边界生脉: 使用IBM Power系列处理器的System p服务器统称为“小型机”,是区别于X86构架的System X系列服务器的一种称呼.不要以为这个系列的服务器名称中带一个“小”字就小看了他的性能,要知道基于X86构架的计算机设备是被成为“微型机”的.Power处理器区别于Intel至强、AMD皓龙的根本性指标是前者运行精简指令集,而后两者运行复杂指令集,相比之下Power效率更高,并发处理能力更强.采用IBM Power处理器的服务器运行基于UNIX开发的操作系统AIX,一般应用于网络基础构架的后端数据库访问控制或者高性能科学计算领域.

林西县13543469988: 如何关闭IBM小型机服务器H85? -
边界生脉: 关闭ibm小型机的顺序是应用-SAP、数据库-ORACLE8.1.7、双机环境(HACMP)(不知道是不是双机环境,不是可以忽略这步)、系统-AIX4.3(如果是双机环境,两台都要关.),这样ibm小型机就关闭了.(如有和ibm小型机外接的设备,如外置磁带机等,应在小型机关闭后,关掉电源即可.)再关闭存储、SAN交换机、网路交换机等外设. 开机顺序相反.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网