列位网友大师好,接待做客本期的名人堂访谈,我是掌管人皮皮。不断以来运维工程师的脚色被蒙上了各类奥秘面纱,日常平凡他们是默默无闻的幕后工作者,很少被人关心。而一旦企业呈现手艺毛病,大师就会立即呼叫他们,这时候的他们又会像救火员一样敏捷灭火,随时要面临应急环境,好比数据库机能优化、数据库备份与恢复、数据迁徙以及毛病解除等。万万不要认为运维工程师只适合做幕后的工作,他们此后的成长大有前途。今天我们邀请到的嘉宾就是从运维工程师做起,一步步高升到了手艺总监的职位,我们一路来看看他的成功窍门。
pipihappy8888(Q1)!您好,很是欢快可以或许采访到您,作为一名Oracle ACE成员,数据库维护工程师您感觉这一路走来能否收成颇多?可否和我们网友引见下本人?
boypoo(A1)!大师好,我叫杨志洪,网名boypoo,目前担任上海新炬收集手艺无限公司的手艺总监。我是ITPUB的晚期用户,与ITPUB一路成长,也属于最早一批ITPUB dataguru。从02年结业到此刻,一晃12年的时间过去了,这些年来天主很眷顾我,老是会给我一些不错的机遇。
大学结业后,我就到了云南电信的部属公司,接触了IBM、HP、SUN的各式小型机、各类操作系统, 各式收集互换机,Oracle从732到Oracle 8174的各个版本……。。就在刚结业的2年里,这些工具就唾手可得,阿谁时候还没有实行省集中,我们到各个地市去都是“专家”,这些机械系统都能够随便折腾,此刻的同窗们很难碰到如许的情况了。
在电信做了2年杂家后,我就不断专注于Oracle的专业办事,一做就是10年。从05年起我起头操纵业余时间在上海给ITPUB主讲RAC、机能优化这些课程,也喜好撰写博客来分享本人的工作经验,除了在ITPUB扎根外,还会雨露均沾,在Loveunix上撰写。不巧有一次Loveunix的博客完全数据丢失了,我就干脆搞起了本人域名的博客,还做些公开的手艺分享,推广Oracle手艺的同时也结识了一多量圈子里的高手。
客岁,我很侥幸被保举成为了Oracle ACE的一员,也就是在这一年,我和老熊老耿一路翻译的《Oracle焦点手艺》中文版也出书了 。这些年来,我们踏结壮实地走好每一步,从做Oracle办事,进修、实践、总结到最初的分享构成了一个完整的闭环,利己利人。
本年我又跟公司申请,跟ITPUB合作,举办“新炬。ITPUB 全国巡回DBA手艺沙龙”,目前曾经在上海、合肥、南京、福州、成都、武汉六个城市办了六场,对200多名参加的Oracle DBA来说是一场免费的手艺大餐,除了上海之外,其他城市几乎没有人办过雷同的勾当。讲师们由于有这么一个舞台分享做了充实的预备,来听课的伴侣们都很积极提问和会商,整个过程构成正向激励,每一份当真的履历对我来说都是满满的收成。
pipihappy8888(Q2)!数据库运维人员就像救火员一样,随时要面临应急环境,好比数据库机能优化、数据库备份与恢复、数据迁徙以及毛病解除等,您在电信、银行、安全等大型行业有十多年的数据库运维经验,有哪些常见的Oracle数据库毛病?可否连系具体的事例,和我们分享下您是若何处理数据库毛病等应急环境?
boypoo(A2)!由于做的是Oracle办事,所以我也习惯了每天耳边充溢着各类毛病的动静。我曾经从起头的猎奇、担忧、兴奋到奇异,此刻曾经处变不惊了。Oracle有个毛病代码手册的文档,不说全数的,但至多80%的毛病代码我都处置过,我还在网上记实分享了大部门Oracle数据库毛病的处置。
此次采访我想通过一个小毛病来分享本人的处置经验。春节前,一个用户通过我们的客户找到我,反映了毛病的环境,一个“主要”的系统Oracle数据库坏了,启动不起来了。我通过近程登录的体例,发觉所有的联机日记文件全数都放在一个目次里,奇异的是这个目次一个文件都没有了。通过history能看到有rm 联机日记文件的号令,可是用户反馈说,这个主机操作系统有一年多没有人登录过了。要搁在10年前,我刚学会_corrupted_rollback_segments、_allow_resetlogs_corruption参数或者bbed、DUL那阵子,必定兴奋得不得了,也不管数据丢失了,三下五除二把数据库强制拉起来 。但这么多年下来,我感觉这事没那么魔鬼,就这么“处理了”的话,一方面不晓得实在缘由,另一方面还会导致数据丢失和不分歧的后果。于是让用户把相关厂商都聚合起来,很快硬件工程师检测发觉是闪存卡非常offline了,手工把它online后,消逝的文件都回来了,系统好了。相当于我什么都没做,可是一样处理了一个“数据库毛病”,只是仿佛没用到什么高深的手艺罢了。
对于毛病,套用句歌词“三分天必定,七分是报酬”来描述其实是很合适的,这个“报酬”里分为两个方面,一方面是纯粹的“误操作”,手贱!另一方面是运维没有成系统,单点毛病隐患到处可见。在我们的此次“新炬。ITPUB 全国巡回DBA手艺沙龙”里,手艺专家袁伟翔的演讲主题就是“Oracle毛病诊断——黑匣子解密”,这里面包含了我们的毛病诊断方式论和毛病办理:毛病的预警、预案,发生时的升级流程,处置过程的分工,处置完的总结,一整套的毛病闭环办理。演讲材料在这里:,在此我就不再赘述了。
pipihappy8888(Q3)!跟着企业的成长强大,在线办事器的数量越来越多,软硬件毛病发生的概率也变得越来越高。若是没有好的监控系统,主机发生非常,特别对于企业的焦点营业系统,将是不成承受之重。那么我们该若何选择合适的监控方案呢?常用的收集监控东西Cacti、Nagios、Zabbix有哪些优错误谬误?若何选择适合本人的监控东西?
boypoo(A3)!其实关于这个问题,国外的同业是走在前面的。良多年前,IBM TIVOLI、HP OPENVIEW、BMC 出产的都是成型的产物了,不外可惜的是,这些产物都太厚重了,初看起来似乎一应俱全,现实上80%的功能是客户不需要的,而客户需要的别的80%的功能它们又没有。所以到目前为止,没有一款现成监控东西是用户交口奖饰的。
这几年,跟着互联网行业的兴起,各类开源的监控东西也降生了,像您说的CACTI,Nagios、Zabbix等等都属于这一类的,它们都属于半成品,这就比如小姑娘的头发任你服装。这个时候的重点不是你用什么外形什么大小的梳子,而是你晓得你要的是什么发型。大的互联网公司因为本身能力很是强,运维工程师对公司的营业能够说是洞若观火,所以总能当令找到最适合本人的监控东西加以革新,成为本人最好用的监控东西。可是保守行业的运维工程师,则因为诸多要素的限制,没法子做到这点。恰是由于如许,我们在4年前基于开源软件的根本上开辟了我们本人的主动化运维东西(DATAYUN。AMP),不竭的迭代用户需乞降我们的运维经验,目前在电信运营商和大型行业客户有利用。关于产物不克不及太吹嘘,要试用的接待联系我。
pipihappy8888(Q4)!在大数据时代里,跟着数据量剧增,并发用户数量的添加,系统常常呈现吞吐量的降低,响应时间变长等机能问题,影响数据库系统机能的常见要素有哪些?若何无效地优化Oracle数据库的机能?
boypoo(A4)!机能问题从大的方面来说就是吞吐量和响应时间的问题,大大都是因为IO过“慢”导致的。为减轻这个问题的影响,收集方面呈现了infiniband互换机,存储方面呈现了SSD盘、闪存卡,它们相对比力贵。对此刻动辄几十TB,上PB而且还在继续暴增的数据库来说,用起来也没那么容易。对于焦点营业数据库来说,凡是会扶植BCV快照、容灾情况、应急情况、测试情况、开辟情况、数据互换核心、备份等“冗余”,成本也很是高。因而,做好数据生命周期办理是优化Oracle数据库机能必必要做,并且见效甚好的一种处理方案。其次,另一个方面的机能问题是锁争用导致的问题,此中包罗一些常见缘由,好比大表没有分区、分区建选择不合适、没有建索引、没有建合适的索引、SQL代码没有重用、利用或者没有利用绑定变量等等都是这类问题的泉源。要处理这个问题,我们需要提早介入产物的开辟,在模子设想、代码测试、版本上线前就参与和改正。
我们的客户相对来说都比力“大型”,动辄上百几百套Oracle数据库,如何无效优化这些数据库确实是个难题。简单的也能够分为两类,一类是短暂告急的问题,你不快速搞定它,可能影响面就会敏捷扩大,这类难题需要我们敏捷判断,到底是新上线的营业导致,仍是施行打算变化导致的。通过焦点SQL进行办理,这类机能问题很是容易处理。另一类问题相对来讲较为复杂,跟着客户营业的增加,新功能越来越复杂,压力也就更较着了。,我们需要从长计议,做好焦点系统的容量办理、数据生命周期办理及版本办理,这一类的优化往往需要多个部分告竣共识后才能做,可是一旦获得无效施行,结果很是好。至于作为项目型的专题优化,能够参考“新炬。ITPUB 全国巡回DBA手艺沙龙”中的此中一个演讲,手艺专家杨修国分享的《运营商焦点系统优化案例解析》里从方式论、优化东西到案例都做了比力细致的解析。
pipihappy8888(Q5)!凡是环境下,数据存储在内存缓冲区和磁盘中,拜候内存的速度远远快于拜候磁盘的速度,因而我们会将屡次拜候的数据放入内存中。而各大厂商也纷纷在内存数据库上崭露头角,各类内存新手艺屡见不鲜,您感觉将来内存数据库会和保守数据库共舞,仍是会大幅度地冲击保守数据库?
boypoo(A5)!为领会决磁盘拜候慢的问题,大内存和大闪存根基上是新的硬件选型尺度,但愿将尽可能多的数据装载到内存或闪存中。相对于盘大的数据量来说,内存还不是足够大。在OLTP型的数据库中,近年来比力火的内存数据库是Timesten,每个数据库凡是限额在100G以内,而保守的Oracle数据库可能是几十TB,内存数据库只是作为保守数据库的一个弥补罢了。而在OLAP方面,SAP有HANA,Oracle 12C也推出了in-memory option,谁胜谁负也还很难定论。这方面我没有过分关心,小我感觉,内存数据库会鞭策保守数据库进化得愈加完满。
pipihappy8888(Q6)!对泛博的数据库运维工程师而言,十年前和十年后的变化很大,特别是在云计较与大数据时代,面对着海量数据的高并发带来的各类压力,该若何面临呢?
boypoo(A6)!在客岁的Oracle手艺嘉韶华上Jonathan Lewis接管采访时说“若是你想在5年后成为Oracle DBA,你要么就是为很大的公司工作,他们本人为了庇护数据的隐密性,而把数据留在本人这里。要么就是为很大的机械工作,500台机械上运转着上百个数据库。小公司里的大都DBA,就不会具有了。”
十年之前,OCP都很少,十年之后的今天,几乎要满大街都是Oracle OCM了。再过十年呢?也许Oracle都不是支流了。可是,环绕着数据的ACID该当是不会的。也就是说,我们做数据库的运维工程师,要愈加去进修根本的、焦点的工具,关怀数据库版本演进过程中新特征的变化,这些变化一方面是基于产物本身的改良,一方面是基于海量数据的需求。时代不断在变,不变的是我们追求新学问新技术的心态。
PS:很是感激杨志洪教员坐镇本次名人堂嘉宾的访谈,请大师放松机遇与杨志洪教员深度对话,接待大师与我们分享您在工作糊口中碰到的坚苦与心得。2014中国系统架构师大会以“发觉架构之美”为主题,此中出格开设了“主动化运维”的专场,届时将由阿里高级开辟工程师段继将为我们带来“淘宝聚石塔运维监控”的出色演讲,接待大师积极报名,数据库维护工程师详情请拜见大会官网。截止7月28日,我们将评选出最佳提问会员2名,赠送图书徽章一枚,能够用于兑换图书。最佳活跃会员1名,赠送第二代360随身WiFi一个。请大师点击链接在社区回帖: