如何做好IT项目的it运维外包服务管理?yunque365.com

IPMI管理在IT运维应用中的探讨
 IT运维网 / 邵昱
& & & & 随着&云&概念的落地,包络融合各类设备的&大云&(公有云)、&小云&(私有云)层出不穷,IT运维所面临的情况也愈加复杂.使用管理软件在异地中心对无人机房实施远程监控/管理,成为目前IT运维的典型实践.
& & & &&传统上的IT运维软件源于网管软件,基于SNMP协议架构.随着SNMP协议的不断完善,可以支持的设备种类也越来越多,交换机、路由器、服务器、磁盘阵列、UPS等均可以纳入管理域,实现自动告警,远程,动态实时维护。
& & & &&标准的SNMP网管架构分为被管理的设备(Managed Device)、SNMP管理器(SNMP Manager)和SNMP代理(SNMP Agent)三个部分。对设备的应用有大致可分为2类:
1.&&&&& 保证网络配置正常的情况下,交换机,路由器,磁盘阵列等有自带微操作系统的设备,只要开机即可启动代理,实现被管理;
2.&&&&& 对于服务器这类安装有多种异构操作系统的设备,需要在安装好的系统里添加欲管理设备(比如RAID卡,网卡)的代理,方可实现管理。
& & & &&类型一的健壮性要优于类型二,不足之处在于相对封闭,灵活性差;
& & & &&类型二开放性好,可以灵活更新、升级以支持新设备,新特性,但是需要一个健康的操作系统。如果操作系统故障则无法保证代理正常运行。
& & & &&例如笔者遇到的一个典型故障:
& & & &&由于人员疏忽,在做系统更新时,将网卡配置文件里的DEVICE的D删除,余下EVICE字段,重新启动后,更新过的服务器因为网卡不能正常启动而全部离线.
& & & &&传统的解决方法是:委派机房管理人员逐一修改网卡配置;不过,考虑安全因素,一般都是用户自己的技术人员去机房修改.维护的时间开销是以小时计的,难以令人满意.
& & & &&如何迅速解决此类事件呢?IPMI管理卡正好大显身手.
& & & &&智能平台管理接口(IPMI) 是一种开放标准的硬件管理接口规范,该标准由Intel、HP、NEC、Dell和SuperMicro等公司制定。自1998 年,IPMI论坛创建了IPMI标准以来,已经有2次重大的版本演进.
& & & &&1998年v1.0实现远程监控系统温度、电压;
& & & &&2001年v1.5,新增PCI Management Bus等功能;
& & & &&2004年v 2.0,能够向下相容IPMI 1.0及1.5。新增了Console Redirection,并加强了安全、VLAN 等特性。
& & & &&IPMI 信息通过基板管理控制器(BMC)进行交流。使用底层硬件智能管理而不使用操作系统进行管理.
& & & &&IPMI管理有2个主要优点:
& & & &&首先,操作系统无关性,只要设备加电,BMC正常工作,即能实现管理;
& & & &&其次,可以实现带外管理,即不占用业务传输的数据带宽。
& & & &&操作系统无关性为维护带来了很大便利,可以使用户在软件系统故障时依然对设备保持有效的控制,进而完成修复工作.
& & & &&一个完整的IPMI系统有下列几个组件:
& & & &&BMC:Baseboard Management Controller
& & & &&IPMB:Intelligent Platform Management Bus
& & & &&ICMB:Intelligent Chassis Management Bus
& & & &&SDR:Sensor Data Record
& & & &&SEL:Sensor Event Log
& & & &&FRU:Field Replacement Unit
& & & &&BMC(Baseboard Management Controller)是核心控制器,系统管理软件对各个被管理单元的管理,都是由BMC来实现的。
& & & &&IPMB(Intelligent Platform Management Bus)总线上连接着各个控制器,分别执行不同功能。IPMB总线上还连接着一些I2C芯片,作为传感器接口,让管理软件能够通过IPMB读取传感器数据。同时,这些传感器的具体配置信息,如告警阈值、事件触发是否允许等配置都作为SDR(Sensor Data Record)数据保存。上述操作生成的事件日志则保存为SEL(Sensor Event Log)数据。
& & & &&在IPMB总线上,连接着一个ICMB(Intelligent Chassis Management Bus)桥,通过ICMB可以实现多个IPMI管理平台之间的通信。
& & & &&下面我们就具体看一个带IPMI管理功能的服务器主板。
& & & &&主板逻辑架构图,可以看到BMC芯片自带有DDRII内存接口、VGA接口、管理网卡接口。后两者是实现网络远程管理及远程KVM的基础。
& & & &&主板IO接口分布图。其中接口1就是专门用于IPMI的管理网卡接口。在有些主板上管理网口也可以复用在板载网卡1(接口4)上。
& & & &&管理卡的IP(即BMC IP)可以在BIOS内方便设定,也可以通过软件在管理界面设定。
& & & &&IPMI管理主要有以下3个途径:
1.命令行,一般用于linux的字符终端下;
2.Web,使用带Java虚拟机的浏览器;
3.单独的管理软件,如IpmiView,可以集中管理多组平台,不像Web方式,为每个被管理节点都要开一个页面,占用资源少。
& & & &&三者可实现的功能无区别,由用户视具体情况选择。2与3 的操作界面类似,下面各图源自IpmiView软件。
& & & &&初始界面,左侧窗口可以看到有多个IPMI管理阈。右侧是具体选定的服务器IP及用户名密码输入窗口。Connected表示已经建立连接。点击下面的标签可以进入对应的管理页面。
电源管理及BMC重置界面
& & & &&从这里可以实现加电服务器的远程开关机,无需人员到现场按Power钮。即便服务器有故障,不能正常引导进入系统,此功能也不受影响。
& & & &&在这里能看到所有管理日志,为故障判断、系统维护提供有力支持。当现场工程师不能确定故障原因时,可以通过selview等软件将日志保存出来,提供给厂商技术人员分析。
SDR界面(温度,风扇转速监控)
传感器的历史记录
& & & &&历史记录有助于分析不同负荷下系统的工作状态,为维护提供参考。
& & & &&在此页面设定BMC IP(与BIOS的设定联动)以及SNMP信息。边上的Users页面内可以设定登陆的用户名,密码,权限;还可以获得被管理平台的序列号、IPMI版本、厂商等信息。
文本控制台(串口重定向)
& & & &&在没有安装Java虚拟机的情况下,KVM overIP是无法打开的,这时可以通过串口重定向获取一个字符界面来操作被管理服务器。不过多数情况下,还是使用KVM over IP更加方便。
KVM over IP界面
& & & &&KVM over IP是通过发送Java数据包来实现的,所以需要在管理机上安装Java 虚拟机.(较早版本的管理卡会自带JavaRunTime,先发送给管理机,但是这样会大大增加初始数据流量,所以后来的管理卡只发送与操作有关的数据)在安装Java虚拟机后,即可打开如上的界面。如同在现场一样操作键盘、鼠标、显示器。
& & & &&KVM over IP的最大优点是覆盖范围广,只要能Ping通并没有数据包过滤设置,就可以使用。不足之处在于可能会有一些延迟,反应较慢,这取决于网络质量。
& & & &&KVM over IP的另一个重要意义在于,能看到现场设备的屏幕显示状况。比如一台服务器系统崩溃了,屏幕出现大量报错信息,有经验的远程维护人员可以及时看到并保存,以分析对策。大大提高维护的针对性、有效性。
虚拟媒体及驱动器重定向
& & & &&IPMI的另一个显著优点。远程挂载媒体意味着能够不依赖业务网络而把文件复制到目标服务器上。原理是通过挂载管理机ISO文件或者分区的方式共享给被管理机使用,文章开头的故障就是通过远程管理卡为每台服务器上传了正确的网卡配置文件,重启后系统即自动上线了,省时省力。
组管理界面
& & & &&使用IpmiView可以实现服务器分组管理,较Web的单台服务器管理方式效率大大提高,是值得选择的方案。
& & & &&从上面的介绍中可以看到,IPMI最大的优势在于其独立性,所以在系统运维实践中,一般都建议单独构建一个IPMI管理内网。如下图:
& & & &&我总结出一些经验供大家参考:
& & & &&1.管理节点可以选用低配置的服务器或PC机,windows系统,硬盘容量大一些(考虑到可能要存放各种ISO及维护升级用软件),做好防护,接入公网;
& & & &&2.条件允许的前提下,尽量使用单独的管理网口组网,若机房布线有困难则考虑复用板载网卡;
& & & &&3.服务器按照业务,操作系统等分组管理。因为管理IP与业务IP完全无关,所以要明确对应关系,以免弄错。
& & & &&主要的服务器厂家都有Ipmi管理卡产品,如HP ilo,Dell DRAC,Intel RMM;此外,还有一些方案出于成本考虑提供了基本的IPMI功能,没有独立的管理网口(复用网卡1),不支持KVM over IP和媒体重定向,仅能通过命令行方式实现管理功能。
& & & &&最常用的命令行工具是Ipmitool,是一个开源软件.
& & & &&http://ipmitool.sourceforge.net/manpage.html
& & & &&ipmitool可以操作本机的管理卡,也可以操作远程机器的管理卡,操作远程机器需提供远程管理卡的地址,用户名和密码.基本命令格式如下:
& & & &&ipmitool -H &x.x.x.& -U &root|admin& -P &password&
& & & &&Dell、HP另有自己专门的命令行工具。
& & & &&此外,由于Ipmi是开放标准,所以有特殊需要的用户可以自行开发定制化程序以满足需求.
& & & &&从上面的简单介绍可以了解到,Ipmi在系统运维中可以发挥强大的作用,成为管理员的有力工具。相比基于SNMP的系统管理软件,Ipmi管理卡在系统宕机等严重故障发生时,更能体现出其价值。虽然单独构建管理网络会增加一些成本,但是相比带来的维护便利还是值得的。
& & & &&目前还少有能将SNMP和Ipmi有机结合的管理系统,不过我认为将两者统一用于IT运维的方向是很有前途的。
& & & &&个人信息
姓名&邵昱&&&身份证261517 &&手机
单位&深圳市宝德计算机系统有限公司北京分公司
& & & & &北京海淀区上地嘉华大厦D座1203
通信地址&&北京东城区和平里5区甲一楼3门401& &100013
相关评论 []网络设备的日志管理
 网络 / 转载
在一个完整的信息系统里面,日志系统是一个非常重要的功能组成部分。查看交换机、路由器和其他网络设备的日志,可以帮助网管员迅速了解和诊断问题。一些网管员认为日志管理是信息安全管理的内容,和系统管理关系不大,这绝对是错误的。很多硬件设备的操作系统也具有独立的日志功能,本文以校园网中常见的Cisco设备为代表,着重介绍在网络设备日志管理中最基本的日志记录的方法与功能。
日志消息通常是指Cisco IOS中的系统错误消息。其中每条错误信息都被分配了一个严重级别,并伴随一些指示性问题或事件的描述信息。Cisco IOS发送日志消息(包括debug命令的输出)到日志记录过程。默认情况下,只发送到控制台接口,但也可以将日志记录到路由器内部缓存;在实际的管理工作中,我们一般将日志发送到终端线路,如辅助和VTY线路、系统日志服务器和SNMP管理数据库。
了解日志消息的格式
在Cisco IOS设备中,日志消息采用如下格式:
下面是一个简单的例子:
这个消息经常出现在Catalyst 4000交换机上(北京地区很多区县都配备此型号交换机),假设日志消息已经启用了时间戳和序列号,对于日志消息,将看到以下信息,首先是序列号,紧接着是时间戳,然后才是真正的消息:
%SYS-4-P2_WARN: 1/Invalid traffic from multicast source address 81:00:01:00:00:00 on port 2/1
这种日志连续出现,我们通查阅CISCO在线文档,或者利用&错误信息解码器工具&分析就可判断出,当交换机收到信息包带有组播MAC地址作为源MAC时,&无效的数据流从组播源地址&系统日志消息生成。
在MAC 地址作为源MAC地址时,帧不是符合标准的工作情况。然而,交换机仍然转发从组播MAC地址发出的数据流。解决方法是设法识别产生帧带有组播源MAC地址的终端站。一般来说,共享组播MAC 地址的这个帧从数据流生成器(例如SmartBits)或第三方设备被传输(例如负载平衡防火墙或服务器产品)。
基本日志记录的配置
在设置日志记录时,需要完成两个基本的任务:打开日志记录和控制日志在线路上的显示。
1. 打开日志记录
默认地,日志记录只在路由器的终端控制台打开,要在其他地方记录日志,则必须相应的打开日志记录并进行配置。使用logging on命令可打开日志记录;其他的如logging命令,可以为日志记录打开其他已配置的目的地,如系统日志服务器或路由器的内部缓存。在将系统消息记录到除了控制台端口的其他位置之前,必须执行该命令。
2. 配置同步日志记录
在路由器线路上显示日志的一个烦人的事情是,可能在我们正在输出入命令的时候,路由器反消息显示在正在输入的命令行中间。虽然这个消息和正在输入的命令无关,我们可能继续输出入来完成命令,但是这种情况是很烦人的。logging synchronous命令的主要目的是将日志消息输出和调试输出同步到控制台、辅助和VTY线路。当启用这个特性时,同步日志使得Cisco IOS显示消息,然后执行一个等价的Ctrl-R的命令,这使得路由器将已经输入的信息重新显示在命令行上。
在config-line模式下可以使用logging synchronous命令来影响日志消息的显示,如下所示:
Router(config-line)# logging synchronous [level severity_level | all [ limit #_of_line ] ]
severity_level是指日志消息的严重程度,这些消息是异步显示的。严重性数值比该值高的消息(更低严重性的消息)被同步显示;数值更低(更严重)消息被异步显示。默认的严重级别是2。参数all使得所有消息都被异步显示,不管分配的严重级别。参数limit指定在路由器开始丢弃新的消息前,有多少个同步消息可以排队在队列中,默认是20条消息。如果到达该阈值,路由器必须丢弃新的消息时,就会看到_of_messages due to overflow日志消息。
注意:同步日志的主要缺点是当路由器正在产生许多消息,而我们正在CLI很慢地输入时,路由器必须丢弃超过阈值的任何消息。因此,将无法在线路上看到这些消息,如果看到这类事件对您来说很关键,强烈建议将它们记录在路由器内部缓存、系统日志服务器或者SNMP管理台。另外,黑客也有可能利用过长的VTY线路空闲时间。
在开始讨论将记录日志到其他目的地之前,管理员应当熟悉日志消息和严重级别。每个日志消息被子关联一个严重级别,用来分类消息的严重等级:数字越低,消息越严重。严重级别的范围从0(最高)到7(最低)。
0&&emergencies&&系统不可用消息。
1&&alerts&&立即采取行动。
2&&critical&&关键状态。
3&&errors&&出错消息。
4&&warrings&&警告消息。
5&&notifications&&正常但有特殊意义的状态。
6&&informational&&信息消息。
7&&debugging&&调试消息和FTP命令及WWW URL记录。
将日志记录到其他位置
1. 到逻辑VTY
有两个命令可用于控制日志消息发送到路由器的线路上:logging console 和logging monitor。
logging console命令是指将日志记录到物理的TTY,如控制台和辅助线路。Logging console命令是指将日志记录到逻辑VTY,如Telnet会话。默认地,记录日志在控制台对所有级别都打开;但是也可以通过改变logging console 命令中的严重级别来修改。默认情况下,网络设备不会将逻辑VTY打开,我们需要执行logging monitor或者terminal monitor,将控制台日志消息复制到VTY。
提示:由于设备需要将消息显示在终端线路上,这样会给网络设备增加额外负担,所以强烈建议将严重级别改到比调试更高的严重级别(较低的数字)。
2. 内部缓存记录
我们日志消息记录到逻辑TTY后,依然无法保证我们调试过程被完整记录下来,比如我们没在意连接线路的屏幕输出,或消息滚过屏幕并超出了终端软件的历史缓存,则没有任何机制可以再看到那些丢失的消息。一个解决方案是将日志消息记录到路由器的内部缓存,根据路由器平台的不同,该项可能是默认打开或者关闭的;在大多数平台下,默认是打开的。使用以下命令将日志记录到路由器的缓存:
logging buffered [ buffer_size | severity_level ]
该命令有两个参数,buffer-size参数指定应该为内部缓存分配多大的内存,以字节为单位,从295字节。使用default logging buffered命令可将缓存大小设成出厂的默认值。
注意:将缓存的大小设置得太大时要小心,因为如果有很多消息,这会使得路由器耗尽内存,可能使其崩溃。
3. 到日志服务器
将日志记录到日志服务器比将日志记录到命令行或者内部缓存要稍微复杂一些,但这也是Cisco和其他产商推荐的做法。以下是将日志记录到服务器的相关命令:
logging [host-name | ip-address]
logging trap level
logging facility facility-type
logging source-interface interface-type interface-number
logging on
其实命令也不是十分复杂,对应如图所示拓扑图:
R3(config)# logging 16.2.2.6
R3(config)# logging trap informational
R3(config)# logging source-interface loopback 0
R3(config)# logging on
l-Logging host 命令指定系统日志服务器的IP地址。
l-logging trap命令指定要发送到系统日志服务器的日志消息的严重级别。默认是informational。
l-logging source-interface命令来生成一致的日志条目,这样路由器使用一个相同的源地址。
l-Logging on命令允许将日志记录到非控制台目的地。
4. 到SNMP数据库
可以将日志信息发送到的最后一个地方是SNMP管理台,很多网管软件都有相关的说明。此外,赛迪网站上此类文章较多,读者可以自行参考配置。
相关评论 []美信:CreCloud云管理平台
 网络 / IT运维网
CreCloud云管理平台(简称美信云网管)是服务器和业务监控软件,美信云网管由行业资深Team历经10几年时间打磨而成,功能强大操作简便,长期运行稳定可靠,在行业内赢得了良好的口碑。
美信云网管支持一站式监控服务器、应用、网络和IT业务,是数据中心集中监控、故障告警、视图展现的最佳监控平台。该平台支持单机到分布式的多种部署方式,无论是10几台服务器的小型数据中心,还是大型数据中心和分布式网络,都可以通过一套平台、一个界面轻松监控。
另外,美信云网管的开放式API接口,可以对用户IT系统中的各种业务数据、应用程序输出、日志信息无缝集成,进行业务数据展示和故障告警管理。
CreCloud云网管支持对上百家厂商的服务器、应用和网络设备的全面深入监控。
(1)服务器:各种Windows、Unix和Linux服务器。
(2)网络设备:路由器、交换机、防火墙等。
(3)数据库:Oracle、SQL Server、DB2、Sybase、My SQL等。
(4)中间件:WebSphere、WebLogic、Tomcat等。
(5)Web Server:IIS、Apache、Resin等。
(6)Web应用:URL、DNS、Mail等。
下一篇:没有了
相关评论 []文博彩通公司2013号文件}

我要回帖

更多关于 it运维管理 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信