|
客户使用体验 | ||||||
券商Splunk使用体验 | ||||||
证券行业的特性使得证券公司对于IT系统所支持的精确管理提出了极高的要求,而Splunk特有的IT管理思路无疑是保证证券行业信息安全和精确度的一个有效方式。随着证券行业的不断发展,其内部的IT应用和设备所产生的日志逐渐被IT管理员重视。Splunk作为灵活的IT检索产品可以对各种日志源产生的日志进行检索和分析,并且能够以最快速和直观的方式呈现。其中,核心交换机的内存使用情况是证券行业网络管理部门非常关注的一个参数,相对于普通的基础网管平台Splunk可以更直观的做出检索。 |
||||||
以下案例为某次券商的交换机进行IOS升级,升级过程并无异常,但一段时间后发现交换机的内存利用率很高,检查进程并无可疑,设备重起后内存利用率恢复正常。为观察交换机内存在运行过程中的变化情况,网络管理人员在splunk上对交换机相关的数据进行搜索分析,并制作报表对内存参数进行实时监控。 | ||||||
输入关键字 |
||||||
简单地输入“Free”即可找到我们所关心的数据,同时交换机产生的原始日志信息可以清楚地进行查找。 |
||||||
自定义栏位 | ||||||
通过“自定义栏位”可以轻松地将关注点变成Splunk搜索字段,在之后的搜索过程中可以更为直观的显示,同时可以根据定义字段实现分析和报表功能。 |
||||||
数字统计 | ||||||
数字统计便于知道该交换机内存在每个时间点的使用情况,让网络管理员更深层次地了解设备运行情况。 |
||||||
报表 | ||||||
通过空闲内存数据可以指定实时监控和长期监控报表,通过报表可以了解交换机内存使用的长期情况,也便于预测之后的使用趋势。 | ||||||
统计用户信息 | ||||||
除了对VPN接入用户登录和登出时间一目了然之外,Splunk智能地计算出每个VPN登录用户的登录时长,对于苦于统计用户信息的管理员来说Splunk无疑是最佳的解决方案。 |
||||||
除了对现有的设备日志做检索分析外,Splunk还支持用户手动导出的日志类型,以下是从NetScout系统中获取的流量数据。 |
||||||
通过简单的定以后,Splunk将这些庞大的数据源轻松地转换成为直观的图像模式。同时还可以增加组合视图对这些数据做长期检索和分析,如果出现异常流量除了在图像中进行显示之外,Splunk还可以实时触发告警给到管理员。 |
||||||
电子商务走向智能运维时代 | ||||||
Splunk是一个IT数据引擎,您可以实时搜索、报告、监控和分析实时或历史的IT数据。Splunk支持对所有以文本形式存在的IT数据进行处理,如标准的syslog和非结构化的事件日志,snmp事件,xml文本,系统和应用配置等等。解放系统管理员的劳动力,为您创造更有价值的商业前瞻性! | ||||||
使用 Splunk 进行应用程序管理 | ||||||
系统管理员的智能运维利刃 | ||||||
很久以来,系统管理员在人们心目中就是一群艺高人胆大的独行侠客。浩如烟海的命令组合、巧夺天工的脚本逻辑、深不可测的参数调优,无数匪夷所思的疑难杂症在快捷灵巧的键盘击打中烟消云散…… 然而,大家并不理解我们这群系统管理员们。 勤奋低调的系统管理并没有网络管理那样的时尚,不断有机会尝试着新的网络产品、设备、新的网络链路、新的安全过滤机制。系统追求稳定和可靠,不能如此日新月异;系统管理也没有应用开发那么自由自在,各种美观的界面元素、多样的中间件的选择、甚至应用的展示结果可以用花枝招展的各类报表图形来妆点。系统管理是和机器的对话,那些图形和选择不属于我们系统管理员。大多数情况下,我们面对的是SSH/Telnet的字符界面和光标闪动,或者是千篇一律的缺乏审美情操的工业革命时代的图形管理界面风格,进行着日复一日的重复检查和审视。枯燥的重复意味着可靠的运行,尽管不那么令人享受,但静静地看着那些数以十计的庞然大物在我们的管理之下发出低沉的吼声,默默地执行着各自的使命,这种情形却也使人安心、愉悦。 但系统管理并不简单,平时我们要建立长程的运营状态报告,以便让各个团队和组织领导理解系统的运行健康度;有时,我们需要配合应用开发部门,去进行一些非常罕见的系统参数设置,以便整个应用可以达到新的水平;偶尔,一些奇怪的问题往往消耗大量的时间,甚至一个意外的重启后的莫名错误就会消耗我们整个晚上的时间。 可别人如何能理解系统管理的难度有多少呢?我们何尝又不想把我们的高深系统的参悟造诣能够更好地为团队贡献、为组织、公司的业务发展提供更有力、直接的支援呢? 错误/性能视图
在这个业务快速发展的时代里,系统管理需要尽快从过去的“静默运维”升级到“智能运维”的范畴之中。系统管理可以通过建立从数据检索、日常监控和告警体系、性能衡量与评估到业务视图的深入流程体系。我们可以把日常的运维工作和公司的业务营运目标精密结合起来。大量的系统日志、IT数据可以成为我们智能运维的基础,在此之上,进一步的挖掘、整理和呈现是表达我们思想的有力手段。 Splunk是这个时代的全新实现,无论是Windows, Linux, AIX, Solaris, HPUX等各类系统,或者是NetAPP, EMC等存储设备,以及Citrix, Vmware等各类虚拟机系统,各类的系统、设备都有丰富的IT数据产生,例如日志、运行状态数据、甚至是脚本运行的结果输出;通过收集这些IT数据,并进行Google式的快速搜索定位,各类问题的关联解决和快速诊断得到了有力的保障;而进一步利用这些问题故障的搜索可以演变成动态的报表和自动告警,形成了自动化系统管理的快捷流程;把相关的报表、实时监控保存在一起则瞬间形成了面向任务、面向业务的仪表板视图。 业务状态视图
和传统的IT运维工具不同,Splunk提供了大量的灵活定义方式和脚本语言引擎可供我们发挥自己的想象力。系统管理历史上积累的脚本知识、正则表达式定义能力与简便的图形化操作结合,成为我们可以自己不断发扬完善的系统运维平台,完全不受到厂商、供应商的能力限制。有非常多的用户自己甚至把定义的结果组合成开源的Splunk App上传到SplunkBase供大家参考使用。这样的系统管理利器怎么能让人不心花怒放? |
||||||
系统管理员的智多星——Splunk |
||||||
如今,IT管理的难度日益加剧,传统的IT管理方法受到来自新兴技术、企业组织的严格管理措施、安全审计等各个方面的压力。 在IT的复杂程度不断攀升的背景下,系统管理员每日的工作犹如救火,他们在确保系统运行顺畅的基本前提下,需要掌握各个网络设备的配置情况,需要运用各种管理工具,实时监控系统或应用的运行情况,需要时刻准备着做繁杂的故障排除,需要动态调整系统配置参数,还需要防微杜渐做好备份防灾准备。 而我们最常见的状况就是,在一个企业组织当中,如果出现了问题,故障工单、事件以及合规审计的需求通常会统统送到服务台。但是因为缺乏故障发生原因的各种具体信息,客服人员填写故障单后,就会直接把问题申报至网络运营部、应用开发部、数据库管理部、安全部或者是系统管理部。如此冗长的工作流程以及相互孤立的数据信息阻碍了部门间的有效合作,各个部门之间就像是在踢皮球。行业分析公司Forrester Research估计,约有百分之七十的初级故障,一线人员根本没有对其进行处理直接做了问题申报。而手动浏览这些信息孤岛数据则需要花费数小时甚至数天的时间。然而实际上,实时地对这些故障问题做出响应,对绝大多数的业务来说都至关重要。 在当今的IT规模发展的快节奏下,想要在复杂的IT环境中取得较好的结果,就需要有不同的思维方式。用传统的IT管理方式来管理或监测IT技术和功能已不再是最恰当最好的答案。企业必须实现管理可视化并获得对IT 信息孤岛数据的把握和洞察力,来提高系统效率,确保快速为最需要的人员提供最精准的信息。 Splunk正是认识到了IT管理的复杂性和灵活性,从而应运而生。Splunk作为让企业IT数据的管理、保护、审计方法发生革命性变革的软件,提供了一种快速有效的方法,可智能处理大量的非结构化IT数据,提供最有价值的处理结果。 AIX 日志的审计
Nmon监控日志仪表板 用户登录分析 突发和统一监控平台 在前面的例子中,如果通过Splunk来处理,情况就会大有不同。一线工作人员可以搜索并分析企业内所有IT数据,实时解决问题。他们可以搜索一个IP地址、数据库错误或权限的变更,在不同的数据信息孤岛中关联诊断信息,在几分钟之内确定故障的根本原因。 每时每刻,数以万计的IT构件都记录中企业中诸如应用程序交易细节,敏感数据的使用以及潜在安全攻击等各种活动,这些IT数据都是IT基础设施中关键事件的真实写照。Splunk可以确保企业内所有的IT数据在应用管理、安全规范以及运营管理等的各种功能中的高效可用性。这也是首次,企业可以实现在一个部门内,实时分析其所有的IT数据,无需考虑数据源、格式、位置或容量等因素。所有的技术和业务部门用户都可以在几分钟之内搜索、告警、报告、分析IT活动,而从前这些操作都需要耗费数小时甚至数天的时间。 当企业需要极具优势的竞争力或IT面临巨大挑战时,Splunk提供了截然不同的方法。通过使用Splunk,不仅仅是使系统管理员的工作变得清晰透明,它让用户,企业,以及各部门的职能都变得更加积极主动。 Splunk可索引包括度量、日志、事件、告警、配置等各数据源中的IT数据;它可以搜索并审查系统性能问题、应用失败以及安全问题,在几秒钟之内完成数以十亿的搜索,迅速找到想要的结果;它可以自动提取IT数据中的知识,帮助你更好地利用这些信息;它可以持续监测保存、分享、预设所有的搜索,并可以通过电子邮件或RSS发送触发告警;它可以创建动态的信息丰富的报表和仪表板等等。除此之外,Splunk可以支持当前几乎所有业界领先的各种操作系统。IT数据中隐藏了系统的所有秘密,而Splunk就是帮助你发挥IT数据全部价值的最有效的IT管理方法。 Splunk的表现就是如此卓越,如果你使用过Splunk,你也会喜欢上它。 |
||||||
运营商Splunk使用体验 | ||||||
对拥有众多IT系统的运营商而言,以积极防御为核心的安全技术框架不仅仅是针对一个具体的安全工程提出的解决方案或者是安全设备的部署,更应该是一个全面、立体、构架化的安全体系。Splunk正是这样一个在技术的困境中孕育而生,以灵活、敏捷的数据管理能力为运营商带来一场IT管理革命创新者。 以下案例为某运营商用户将BOSS中的重要网络设备日志通过syslog日志方式发送到splunk服务器上,splunk在收集这些设备日志后,可以便捷地搜索出日志中的关键事件,这些甚至是运维人员之前都不曾关注,或是关注后也没有做系统分析的。 |
||||||
搜索关键字“up OR down”查看日志中存在接口连接情况,splunk将信息转换成时间分布图,使我们更快捷地查看当天或者过去几天设备接口连接状态,同时还可以挖掘接口连接所关联的信息 |
||||||
Splunk智能关联出出现状况的接口所对应的设备IP地址,并且将两张图表对比在一起进行查看,在查看接历史信息时可以快速查找出接口频繁up和down的设备地址。 |
||||||
搜索关键字“fan error”找到出现风扇问题的设备,在详细日志信息中可以找到设备的IP地址以及风扇编号。 |
||||||
搜索关键字“deny”查找核心交换机上丢弃数据包的具体情况,根据这些情况可以统计一些经常出现的被丢弃数据包源头。 |
||||||
统计丢弃的数据包的类型,通过长期视图监控分布变化。 |
||||||
查看拒绝数据包的源地址或者目的地址时间分布图。 |
||||||
查看拒绝数据包的源端口或者目的端口时间分布图,以上视图可以立即组合成仪表台进行长期监控,将冗长的日志信息用最为直观的图表进行展示。 |
||||||
搜索关键字“OSPF”查看动态路由协议使用情况,意外地发现其中一天的OSPF事件达到了17件,远远高于其他时间OSPF出现的事件数量,直接在搜索图形中下探查看那天的OSPF事件具体发生的时间。 |
||||||
事件集中在凌晨1点至4点,继续查看具体日志内容。 |
||||||
发现日志中有一台设备的临近设备反复出现”loading to full,loading done”和“full to down,dead timer expired”, 再仔细询问后得知在该时段运维人员对该设备进行过一次割接,splunk通过日志轻松地找到了“故障点”。 |
||||||
银行Splunk使用体验 | ||||||
信息科技的不断进步,一方面使得银行业信息和数据逻辑集中程度不断得到提高,另一方面又成为银行业稳健运行的一大安全隐患。Splunk作为智能的IT管理运维平台,能够帮助银行业积极迎接、应对和解决不断出现的各种风险,为其完善IT体系,建立良好的风险管理,提高风险控制能力,实现网络经济时代银行业的新发展。 以下为某银行总行案例,该总行拥有庞大的网络设备产生的日志,运维人员平时通过一些简易的软件平台登录查看日志信息,但无法找到快速有效的长期监控方法,Splunk的出现能为运维人员带来些什么呢?通过搜索出日志中的重要关键字来挖掘出网络设备日志中有价值的信息,再不断积累的搜索经验下将这些有价值的信息转换成为Splunk搜索语句,在仪表台上进行直观的展现,最后成为一线运维人员的网络监控平台。 |
||||||
搜索关键字“up/down”,如果有接口出现频繁地接口翻转,在制定的监控视图中我们可以及时找到该接口所对应的设备。 |
||||||
搜索关键字“duplicate”, 发现有少量存在IP地址冲突的地址,其中地址冲突所发生的时间以及冲突的源主机MAC地址都可以一目了然。 |
||||||
搜索关键字“duplex mismatch”,可以快速定位接口双工模式不匹配的接口号和对应的设备地址,再进行统计的同时还能够对某个关心的设备作深入检索和分析。双工模式不匹配会导致数据在二层就无法正常进行传输。 |
||||||
搜索关键字“flapping”发现部分交换机上收到的MAC地址在极短的时间内出现多次变化情况,通过这些可以快速定位到故障源,而不是手动去查看日志记录信息。通过Splunk检索出来的信息还可以进一步判断MAC地址的频繁变化是不是由于ARP攻击所导致的。 |
||||||
搜索关键字“SYN flood”, 在防火墙日志中查找SYN攻击事件,在图表视图中可以快速显示出来,同时时间段也可以做到非常精确的统计。 |
||||||
搜索关键字“power”快速查找重要设备是否会出现“power off”的情况,对于出现单电故障的设备来说,更需要进行“power”搜索。 |
||||||
搜索关键字“1”将syslog中level-1级别的日志过滤出来,对于分布比例比较大并且在短期大量出现的事件可以进行重点关注。 |
||||||
top>> | ||||||
咨询热线:021-52396050 |