sexta-feira, 27 de maio de 2011

Artigo sobre Nagios

Neste post, coloco meu artigo final apresentado para graduação na ULBRA Campus Canoas/RS, onde fui orientado pelo Alexandre Timm Vieira. O artigo é sobre o Nagios, uma ferramenta de NMS (Network Monitoring System ou Sistema de Monitoramento de Rede) que ajuda muito na detecção de anomalias da rede. A implementação foi realizada utilizando SNMPv3 e v2, e no anexo estão as métricas de rede que foram definidas para esta implementação. Segue um trechinho da introdução e os links para download:

Introdução

"São 3:00hs da manhã, quando o administrador de uma rede é despertado pelo toque do telefone. É o help-desk da filial chinesa, informando que os usuários não conseguem emitir notas fiscais e que o diretor da filial de Pequim está precisando urgentemente dos relatórios do sistema de Business Inteligence (BI) ou “Inteligência de Negócios”, que por razões desconhecidas, também não podem ser gerados. Depois de conectar-se remotamente, o administrador descobre após uma hora executando diagnósticos, que o
disco rígido no qual uma base de dados Oracle central armazena seus arquivos de log atingiu sua capacidade total, indisponibilizando o serviço. Depois de liberar espaço em disco e rodar testes que confirmam que o banco está operacional novamente, o administrador volta a dormir.

A situação relatada é hipotética, mas perfeitamente passível de acontecimento no cenário atual. Com a necessidade das empresas de terem cada vez menos colaboradores executando mais tarefas, é comum o pessoal de TI estar geograficamente distante dos sistemas e aplicações os quais administram. Sendo assim, nenhum departamento de TI consegue efetivamente custear a checagem manual regular de todos os seus sistemas, arquivos de log, configurações e variáveis. Principalmente porque esses sistemas estão cada vez mais complexos e altamente configuráveis. Faz-se então necessário o uso de ferramentas que monitorem e gerenciem os dispositivos críticos que fazem parte do ambiente computacional da empresa. Ferramentas que detectem falhas, problemas de performance entre outras anomalias e alertem os responsáveis por esses sistemas para que uma atitude corretiva possa ser tomada em tempo hábil.

Ao invés de ter recebido uma ligação as 3:00hs da manhã, o administrador da rede do exemplo anterior poderia ter recebido a seguinte mensagem via pager ou celular: “31/08/08 03:00AM C:\ drive on Server ORACLE_LOG reached 95%”. O tempo perdido para rever arquivos de log, analisar possibilidades, diagnosticar e corrigir o problema seria reduzido drasticamente. O problema, aliás, sequer aconteceria, pois o
administrador seria avisado com antecedência de uma possível irregularidade e tomaria as medidas necessárias para evitá-lo. “Não importa se a causa do problema foi maliciosa ou acidental, um dia o seu sistema vai falhar. Quando isto acontecer,somente duas coisas poderão salvá-lo do downtime: redundância e o monitoramento dos seus sistemas

Para ler mais, use os links para o artigo abaixo:
Artigo - NMS: http://www.cristiano.eti.br/Artigo-NMS-CristianoBorges.pdf
Anexo I - http://www.cristiano.eti.br/Artigo-NMS-CristianoBorges-AnexoI.pdf

Nenhum comentário:

Related Posts Plugin for WordPress, Blogger...