服务器运维手册最多的问题出现在什么地方

点击联系发帖人 时间：2016-02-28 07:47

服务器运维管理

后使用快捷导航没有帐号？
大型网站高并发架构与自动化运维实战
查看: 22016|
评论: 0|原作者: 仙豆
快速报名：
运维工程师解决的问题？
1、1000台服务器规模，JAVA和PHP混合环境，如何构建一套高效的从测试环境代码测试到正式环境的代码发布、回滚以及软件更新、配置变更的可实施的解决方案及规范流程制度？
2、电商秒杀：前10秒100万并发抢购，请设计个方案解决之？
3、6个机房，近1000台服务器如何设计一套所有账号统一管理的解决方案？
4、不考虑硬件资源及带宽，请设计一套可行的网站架构，解决大流量DDOS攻击问题，请分层逐一详细说明？
5、500台服务器规模，如何实现跨机房容灾，即一个机房宕机，其他机房可以最快接管提供服务
什么是运维工程师？
一个互联网产品的上线流程
1、首先公司管理层给出指导思想，PM定位市场需求（或copy成熟应用）进行调研、分析、最终给出详细设计。
2、架构师根据产品设计的需求，如pv大小预估、服务器规模、应用架构等因素完成网络规划,架构设计等（基本上对网络变动不大，除非大项目）
3、开发工程师将设计code实现出来、测试工程师对应用进行测试。
4、好，到运维工程师出马了，首先明确一点不是说前三步就与运维工作无关了，恰恰相反，前三步与运维关系很大：应用的前期架构设计、软/硬件资源评估申请采购、应用设计性能隐患及评估、IDC、服务性能\安全调优、服务器系统级优化（与特定应用有关）等都需运维全程参与，并主导整个应用上线项目；运维工程师负责产品服务器上架准备工作，服务器系统安装、网络、IP、通用工具集安装。运维工程师还需要对上线的应用系统架构是否合理、是否具备可扩展性、及安全隐患等因素负责，并负责最后将产品（程序）、网络、系统三者进行拼接并最优化的组合在一起，最终完成产品上线提供用户使用，并周而复使：需求-&开发（升级）-&测试-&上线（性能、安全问题等之前预估外的问题随之慢慢就全出来了）在这里提一点：网站开发模式与传统软件开发完全不一样，网站一天开发上线1~5个升级版本是家常便饭，用户体验为王嘛，如果某个线上问题像M$ 需要1年解决，用户早跑光了；应用上线后，运维工作才刚开始，具体工作可能包括：升级版本上线工作、服务监控、应用状态统计、日常服务状态巡检、突发故障处理、服务日常变更调整、集群管理、服务性能评估优化、数据库管理优化、随着应用PV增减进行应用架构的伸缩、安全、运维开发。
课程大纲：
第一课：介绍大型站点运维到底是什么？应该具备哪些能力
1、简要介绍Linux运维需要完成的是那些工作，简单介绍现在企业中用的最多的三大web服务器
2、简单介绍为什么大型站点（阿里巴巴、腾讯、京东）等网站需要部署负载均衡
3、简单介绍为什么大型站点需要部署高可用、缓存服务器
4、学完本课程学院能具备什么样的技能、达到什么样的高度
5、本次课程学员需要自己前期准备的基础开发软硬件环境
第二课：讲解主流三大web服务器之Apache服务器（httpd服务器）
1、讲解什么是http协议、http协议有哪些版本、现在企业使用的主流http版本是什么
2、讲解一次完整的web请求响应的交互过程、什么是web事务
3、讲解web服务器基础原理、基于socket通信相关的系统调用
4、详细讲解httpd服务器的内部3大工作模式、httpd的功能特性
5、通过rpm包、源码编译安装两种方式对比实战讲解Apache服务器的工作特性
6、实战讲解Apache服务器的各类特殊功能的配置实现
第三课：通过部署互联网的主流的wordpress博客站点讲解lamp架构
1、讲解为什么淘宝网最早期使用lamp架构、怎么优化成为如今的架构
2、通过使用rpm安装lamp并部署wordpress博客站点、来说明lamp架构的组成
3、通过编译安装lamp架构并部署wordpress博客站点、来讲解怎么优化lamp属性
4、编译安装lamp及通过xcache缓存opcode；来提高lamp架构的性能
第四课：讲解主流三大web服务器之nginx服务器
1、讲解nginx的工作模式，并对比httpd服务器来说明其具有哪些性能优势
2、讲解nginx主进程主要完成哪些工作、worker主要完成哪些工作
3、通过rpm包、源码编译安装两种方式对比实战讲解nginx服务器的工作特性
4、实战讲解nginx服务器的各类特殊功能的配置实现
第五课：通过部署互联网的主流的discuz论坛站点讲解lnmp架构
1、通过使用rpm安装lnmp并部署discuz论坛站点、来说明lamp架构的组成
2、通过编译安装lnmp架构并部署discuz论坛站点、来讲解怎么优化lamp属性
3、同时部署lamp架构、lnmp架构并使用并发测试工具，测试大并发下那种架构性能更好
第六课：讲解淘宝网现在正在使用的负载均衡技术lvs
1、讲解服务器集群的相关概念
2、讲解lvs的几大工作模式的工作原理，以及分析每种模式的性能瓶颈会出现在什么地方
3、实战讲解lvs的nat、dr模式的实现
第七课：讲解服务器集群中主流的高可用服务corosync+pacemaker
1、讲解高可用集群的基础概念
2、实战讲解怎么使用corosync+pacemaker实现mysql服务的高可用
3、实战讲解怎么使用corosync+pacemaker实现nfs服务的高可用
第八课：讲解反向代理服务器haproxy的实现
1、通过优化web系统架构引导出反向代理服务器haproxy
2、代理服务器haproxy的作用
3、实战讲解怎么部署haproxy服务
第九课：讲解缓存服务器varnish的实现
1、通过优化web系统架构引导出反向缓存服务器varnish
3、讲解varnish的状态引擎的工作流程
2、实战讲解怎么部署varnish服务
第十课：讲解主流三大web服务器之tomcat服务器01
1、讲解tomcat的工作机制
2、实战讲解httpd及nginx反向代理tomcat
3、通过一个电商平台的部署实战讲解tomcat
第十一课：讲解主流三大web服务器之tomcat服务器01
1、实战讲解tomcat集群的实现
第十二课：讲解淘宝网早期使用的轻量级高可用服务keepalived
1、详细讲解vrrp协议在Linux主机上以守护进程方式的是实现
2、详细讲解配置文件的组成部分、生成ipvs规则
3、实战讲解keepalived服务的双主模式的实现
授课时间：课程预计日开课，预计课程持续时间为14周。
授课对象：
本课程适用于对Linux使用感兴趣、对大型站点的架构感兴趣的学员。本课程由浅入深对大型站点的架构进行讲解，由于这是Linux高级服务的讲解，，因此学员需要有一定的linux基础（或者开课前提前自学linux常用操作命令）。
课程环境：
操作系统：centos6.6
物理机尽量4g以上内存
采用多台vmware生成虚拟机来做部署大型站点的架构
讲师介绍：
本次课程将由zouhg讲师完成。zouhg讲师从2010年开始，从事大型web站点的运维工作，曾经任职多家互联网担任资深运维工程师的职位，对大型web站点运维有相当丰富的经验。课程试听：新颖的课程收费形式：“逆向收费”约等于免费学习，仅收取100元固定收费+300元暂存学费，学习圆满则全额奖励返还给学员！
本门课程本来打算完全免费，某位大神曾经说过“成功就是正确的方向再加上适度的压力”。考虑到讲师本身要付出巨大的劳动，为了防止一些朋友在学习途中半途而废，浪费了讲师的付出，为此我们计划模仿某些健身课程，使用“逆向收费”的方法。
在报名时每位报名者收取400元，其中100元为固定收费，另外300是暂存学费，即如果学员能完成全部课程要求，包括完成全部的书面和互动作业，则300元全款退回，优秀的学员还可以获得礼品奖励。如果学员未能坚持到完全所有的学习计划任务，则会被扣款。期望这种方式可以转化为大家强烈的学习愿望和驱动力！
课程授课方式：
1、学习方式：老师发布教学资料、教材，幻灯片和视频，学员通过网络下载学习。同时通过论坛互动中老师对学员进行指导及学员之间相互交流。
2、学习作业：老师每周布置书面及互动作业，学员需按时按质完成作业。
3、老师辅导：根据作业批改中发现的问题，针对性给予辅导，帮助大家掌握知识。
4、结业测验：通过测验，完成学业。
您是否对此课程还有疑问，那么请，您的问题将基本得到解答全国统一咨询热线
课程现开始接受报名，报名方式
网上报名请点击：咨询Email ：，
课程入门讨论咨询群：（群内有培训公开课视频供大家免费观看）咨询QQ：
(上班时间在线）
付款方式：课程采取网上支付形式，学员可充值钱包直接支付课程学费。详细说明：支付流程：快速报名—填写个人信息—确认信息无误—充值钱包—支付学费—加入课程及QQ群—开始挑战
最新技术热点、最新行业资讯，最新培训课程信息，尽在炼数成金官方微信，低成本传递高端知识！技术成就梦想！欢迎关注！
打开微信，使用扫一扫功能，即刻关注炼数成金官方微信账户，不容错过的精彩，期待您的体验！！！
快速报名：
刚表态过的朋友 ()
上一篇：下一篇：运维安全概述 | WooYun知识库
运维安全概述
运维安全是企业安全保障的基石，不同于Web安全、移动安全或者业务安全，运维安全环节出现问题往往会比较严重。
一方面，运维出现的安全漏洞自身危害比较严重。运维服务位于底层，涉及到服务器，网络设备，基础应用等，一旦出现安全问题，直接影响到服务器的安全；另一方面，一个运维漏洞的出现，通常反映了一个企业的安全规范、流程或者是这些规范、流程的执行出现了问题，这种情况下，可能很多服务器都存在这类安全问题，也有可能这个服务还存在其他的运维安全问题。
本文一方面希望帮助甲方覆盖一些盲点，另一方面也能够为白帽子提供一些漏洞挖掘的方向和思路。
0x01 Attack Surface
一图胜千言，下图是个人近期总结的一些常见的运维风险点。
附XMIND源地址：
0x02 运维安全对抗发展
攻防对抗本身就是不平等的，防御是一个面，而攻击者只需要一个点。要防住同一level的攻击，需要投入的防御成本是巨大的。在攻防对抗的各个level，高level的攻击手段是可以随意贯穿低level的防御层面。
对于很多小公司（其实也包括很多大公司），对待安全漏洞的态度基本上都是遇到一个坑，填一个坑，这种纯“救火”的态度无法保障运维安全，只会像打地鼠一样，疲于奔命。
然而大部分公司都处在这个level——填坑救火（不救火的公司没有讨论的必要）。一方面是公司自身的安全意识不强；另一方面是小公司的安全资源配备有限。
漏网之鱼 VS 建设 + 运营
不同于小公司，一些大公司，特别是互联网公司，安全发展已经逐渐的从“救火”进入到“建设”的阶段。
从甲方的角度而言，这个过程是艰辛的，长久的。
在企业进入安全“建设”的阶段时，运维安全漏洞会呈指数级下降，一些常见和普通的问题不再出现。
这个时候，对抗点会集中在一些比较边缘的点。包括不常见的服务端口，依赖第三方服务的问题，又或者是一些合作方服务器安全漏洞等情况。
通常情况下，造成这些安全问题并非是安全技术的缺陷，更多的是安全规范、标准流程覆盖不全的情况，如新业务、三方业务、收购的业务，运维体系还没有统一，运维安全建设没有及时跟上；即使在安全规范和流程覆盖完全的情况下，在具体的执行也会出现一系列问题。安全规范和标准流程越多，越容易出现执行上的问题。
这两类问题是建设时期比较典型的情况。很多时候，领导都会有这样的疑问，我们的规范、流程已经推到各个部门，看起来各个部门也按照标准执行了，为什么还会有这么多“漏网之鱼”？
于是如何主动的发现这些漏网之鱼也是一个急迫的需求。
这个时候需要安全运营的介入，安全运营在戴明环中扮演的量C/A的角色，定期check安全规范、流程标准的执行情况，然后推动安全问题的Fix，找到根本原因，一方面不断的完善规范和流程，另一方面不断的提升运维安全的覆盖面。
比较常见的就是安全扫描，通过定期扫描发现的问题，反推流程和规范的执行；当然，通过白帽子报告的漏洞，确定是流程和规范的原因后，进行反推也是一种有效的方式。
“新”漏洞 VS 预警 + 响应
天下武功，唯快不破
在运维安全提醒建设到相对完善的情况下，通常情况下，企业是相对安全的。但是，一旦有新漏洞的出现(在国内，有exp发布的漏洞往往就等于新漏洞），拼的就是响应速度。
一方面是需要安全运营对这些严重漏洞的快速预警；另一方面就是安全专家的技术功底了。在没有官方补丁发布的情况下，如何通过一些hack技巧进行防御也是非常重要的。
比如最近几年比较大的安全事件，如日的struts2漏洞，日的心血漏洞，就算是国内甲方最强安全团队BAT也是难于幸免。这一level，甲方非常难做，唯一能保障的就是在中招后提示响应和修复的速度。
人安全意识 VS 安全教育
在整个运维安全的对抗中，人这一块尤为重要，运维安全做的越好，这块越发重要。
安全规范和标准可以落实到各个部门，以流程的方式强制执行。但是运维人员安全意识的问题，很难进行控制。
最简单的就是弱口令，弱口令，弱口令！
各种系统的弱口令，各种后台的弱口令，各种服务的弱口令。这么多年了从来没有断过。
很多运维有些“坏”习惯。
比如直接在web目录进行web文件备份、nohup后台运行程序。这样会导致备份文件、程序执行的日志泄露；又或者随便开一个web服务下日志或者传数据，如python -m SimpleHTTPServer，这样就直接把目录映射到所有用户，如果是根目录，影响就更大了；当然，还有些运维喜欢把自动化脚本上传到git，脚本这东西，密码就在里面，一不小心就直接泄露了密码。
比如弱口令：
比如web服务开放问题：
比如运维在Github泄露导致的安全问题：
http://drops.wooyun.org/papers/410
感谢知乎授权页面模版香港服务器租用托管运维问题知多少
16:15:40&&&来源：&&&评论：点击：
进行香港服务器托管的时候，在日后服务器运维中出现故障怎么办？香港服务器托管运维出现故障的原因？香港服务器运维需要注意什么？答案如下
& &进行的时候，站长需要对自身网站情况做全面的了解，这包括网站类型、日流量、数据库数据量、服务器文件大小、系统类型等当面，这些工作对于选型或者服务商推荐工作都很重要。若是客户自行选购服务器，那么可以灵活的对服务商提供的产品进行配置，对于服务器内存、硬盘、带宽等都是可以自由升级，达到企业稳定运行的要求即可。但是在日后服务器运维中出现故障怎么办？
运维出现故障的原因
1、客户自己的操作问题。
& &客户把自己的服务器托管到IDC机房，例如但对于服务器的管理还是客户自己进行的。我们只是提供网络资源、电源、安全等基础服务。因此，服务器在我司提供的基础设施正常时出现问题，大部分可能是因为客户自己的远程操作失误而产生。
2、服务类型过多，服务器无法正常运行。
& &客户把服务器托管到IDC机房后，会在服务器上运行多种应用服务，比如WWW服务、Mail服务、Ftp服务等等，有些还包括数据库之类的动态数据的查询服务。提供的服务类型越多，那么出问题的可能性就越大。当出现某种服务无法启动或死机时，可以通过远程重启这项服务，经过重启机器或是相关处理后即可很快恢复正常。
3、服务器本身硬件问题
& &服务器硬件可能出现问题的地方，主要有主板、内存、硬盘等方面。在排除其它可能的原因后，经技术人员检查出是服务器硬件问题，则需客户购买硬件快递或送到机房进行更换。或者直接托付我们机房人员购买进行更换。
4、访问量过大。
& &服务器访问量突然增大，也有可能导致服务器无法访问。
运维需要注意什么
1、对服务器上的冗余文件进行整理；
2、检查服务器是否是否有异常情况：使用是否正常、服务状态是否正常、有否被黑客入侵的迹象；
3、对重要数据的备份；
4、安装系统或程序的补丁；
原文标题：香港服务器租用托管运维问题知多少
原文地址：
版权归网络时代所有，转载请注明出处
相关热词搜索：
延伸阅读：
频道总排行
频道本月排行}

51无线网