Backup na Prática - Dicas práticas para o dia-a-dia de um profissional da área de Backup: 2012

quarta-feira, 26 de dezembro de 2012

TSM Database Backup

Pessoal, tudo bem?

Recebi algumas perguntas sobre o backup do DB e pelo teor dessas perguntas, é possível concluir que principalmente novos "desbravadores" dessa poderosa ferramenta possui algumas dúvidas sobre como lidar com ele.

Eu considero, basicamente o backup do DB do TSM o backup mais importante do nosso ambiente, uma vez que é nele que estão todos os apontamentos, informações a respeito de todo ambiente de backup, desde informações de server e clients, até informações sobre o gerenciamento dos dados armazenados.

E por que o backup do DB é o mais importante? Se o servidor do TSM sofrer um crash e houver corrupção do DB, será necessário fazer restore dele. Se você não possuir um backup atualizado, o banco voltará com a posição do último backup e dessa forma perderá todas as informações gravadas e armazenadas desde a data do último backup até o crash.

Exemplo (verídico).:

O ambiente TSM foi implementado em 01/MAR/2012 e o último backup do DB foi executado nessa data. Infelizmente, hoje 26/DEZ/2012, caos o DB seja corrompido, será necessário fazer o restore com base no último backup full, ou seja, se o último backup do DB foi no dia 01/MAR, todos os backups gravados entre 01/MAR e 26/DEZ foram definitivamente perdidos. Isso ocorre porque, todos os dados gravados nas fitas de lá para cá, ao voltar o restore é como se esses dados não existissem, já que o TSM voltará com data de 01/MAR.

Para verificar quando foi o último backup do DB, utilize o comando.: q volhist t=dbb ou t=dbs

Tipo de Backup

Full - Executa o backup full do banco do TSM.

Incremental - Executa um backup incremental de todos os dados do DB que foram modificados desde o último backup full executado com sucesso.

DBSnapshot - Executa um backup full (image) do banco do TSM sem interromper o ciclo de execução dos backups fulls e incrementais. Normalmetne utilizado para ambientes com DRM configurado, já que essas cópias, são as que vão para cofre externo (offsite).

Executar o backup do DB é um processo administrativo. Com um schedule t=a é possível agendar sua execução, e da mesma forma que o backup é agendado é possível checar sua execução com um simples query event.

Execução

A execução do backup do DB é simples e lembre-se que na dúvida de executar algum comando, na própria console é possível chamar o HELP que mostrará todos os parâmetros necessários.

Exemplo de Backup Full (DBB).

backup db devc=device_class_name type=full scratch=yes wait=yes

Exemplo de Backup Incremental

backup db devc=device_class_name type=incremental scratch=yes wait=yes

Exemplo de Backup Snapshot (DBS)

backup db devc=device_class_name type=dbs scratch=yes wait=yes

Criando um schedule administrativo para o backup do DB.:

def sched backup_db t=a cmd='backup db t=full devc=lto scratch=yes wait=yes' active=yes startt=09:00 startd=today per=1 peru=day day=any

O resultado desse comando é a criação de um schedule chamado BACKUP_DB que executará um backup full todos os dias as 09:00hs

Para checar a execução do schedule.: q event backup_db t=a

Ou você pode checar diretamente o volhistory.: q volhist t=dbb

Um abraço e um excelente 2013 a todos os colegas, principalmente aqueles que estarão de plantão nessa virada!

quarta-feira, 29 de agosto de 2012

Atraso em respostas!!!

Pessoal, boa tarde,

Peço desculpas por demorar em responder aos emails que recebo. Estou passando por alguns momentos turbulentos na empresa onde acabei me distanciando dos posts e dos emails.

Estou respondendo na medida do possível, já que a lista não é muito pequena...rs ainda bem

Em paralelo a isso, convido a todos a escreverem artigos ou dicas sobre alguns problemas que passaram e como fizeram para resolver. Mande para o email tsmnapratica@gmail.com que assim que possível, será publicado.

Um abraço

sexta-feira, 18 de maio de 2012

Dica sobre Include

Oi pessoal, desculpem a demora, ando meio atribulado com alguns assuntos na empresa.

Recebi uma dúvida essa semana de um colega sobre um problema que ele estava tendo com INCLUDE. Basicamente o problema consistia que o backup somente gravava diretórios, sem levar os arquivos e como solução (paleativa), era necessário colocar include para cada subdiretório que existia.

O INCLUDE que ele estava passando era.:

Include "C:\XPTO\*" MgmtClass

A sugestão que passei foi utilizar esse INCLUDE.:

Include "C:\XPTO\...\*.*" MgmtClass

A idéia é porque o \... entende que pode haver de 0 a n diretórios abaixo da pasta raiz XPTO, portanto o *.* irá incluir todos os arquivos encontrados.

Recebi depois feedback do colega dizendo que funcionou!!

A lista de possibilidades para trabalhar com Includes e Excludes é enorme. Qualquer dia vamos escrever mais a respeito.

Qualquer problema, dúvida, sugestões ou correções, mande um email para tsmnapratica@gmail.com ou poste um comentário como fez nosso colega Cartola.

Um ótimo dia a todos!

quinta-feira, 5 de abril de 2012

Erro em restore de Exchange via TDP

E lá vamos nós novamente falar de erro em Exchange.....

Confesso que geralmente são os mais chatos de tratar. Hoje ao executarmos um restore, nos deparamos com o seguinte erro.:

ACN0151E The restore environment information isn't found or can not be opened.

Muito bem. Basicamente esse erro ocorre quando o path informado no parâmetro TEMPLOGRESTOREPATH não está acessível. Acontece muito em ambientes em cluster ( é o nosso ambiente ).

Para resolver basta colocar um path válido e acessível.

Mais informações.: http://www-01.ibm.com/support/docview.wss?uid=swg21109092

Um abraço.

quarta-feira, 21 de março de 2012

Fitas Utilizadas X Fitas Liberadas

Oi pessoal,

Esses dias estava conversando com um ex-colega de trabalho sobre utilização e liberação de fitas no TSM. A idéia é manter um controle de quantas fitas o TSM está consumindo e por outro lado quantas fitas scratchs o TSM está liberando através de seus processos administrativos.

Uma das formas que podemos fazer isso é através de selects. Sempre que o TSM associa uma fita scratch a um stgpool, ele emite um alerta informativo. E por outro lado, sempre que o TSM libera uma fita para scratch, ele também emite um alerta informativo.

Os alertas são.:

- Para fitas liberadas.: ANR1341I

- Para fitas consumidas.: ANR1340I

Para sabermos o que significa esses alertas, basta chamar o help na console do TSM.

Exemplo.:

tsm: TSMSERVER>help ANR1340

ANR1340I Scratch volume volume name is now defined in storage pool storage pool name.

Explanation: The scratch volume specified has been added to the storage pool shown.

System action: None.

User response: None.

tsm: TSMSERVER>help ANR1341

ANR1341I Scratch volume volume name has been deleted from storage pool storage pool name.

Explanation: The scratch volume specified is no longer in use and has been removed from the indicated storage pool.

System action: None.

User response: None.

Obviamente a conta não é exata, pois não estamos checando se a fita consumida está 100% FULL ou se está 1% Filling. Estamos apenas tirando uma estimativa.

Podemos usar os seguintes selects para verificar um intervalo de tempo determinado.:

select count(msgno) as "FITAS CONSUMIDAS" from actlog where msgno=1340 and DATE_TIME between timestamp('2011-06-01 00:00:00.000000') and timestamp('2011-06-30 23:59:59.000000')

select count(msgno) as "FITAS LIBERADAS" from actlog where msgno=1341 and DATE_TIME between timestamp('2011-06-16 00:00:00.000000') and timestamp('2011-06-30 23:59:59.000000')

Um abraço.

sexta-feira, 9 de março de 2012

Como desativar um schedule de backup temporariamente

Como fazer para desativar um schedule de backup temporariamente? Seja por um dia apenas ou por vários dias.

Basicamente podemos fazer de duas formas.:

Desassociando o node.: del assoc

Exemplo.:

tsm: TSMSERVER3>del assoc PD_LDC_FS BRASPO001_INCR_DIA BRASPO001_DIA

Do you wish to proceed? (Yes (Y)/No (N)) y

ANR2511I Node BRASPO001_DIA disassociated from schedule BRASPO001_INCR_DIA in policy domain PD_LDC_FS.

Dando atualizando o schedule para voltar a executar em XX dias.: upd sched startdate=+3

Exemplo.:

tsm: TSMSERVER3>update schedule PD_LDC_FS BRASPO006_INCR_DIA startd=+3

ANR2502I Schedule BRASPO006_INCR_DIA updated in policy domain PD_LDC_FS.

Eu particularmente prefiro utilizar o update schedule, pois se por acaso, você se esquecer, ele volta a executar normalmente daqui a 3 dias de forma automática.

Diferentemente do delete assoc, que se você utilizar, obrigatoriamente deverá fazer o define assoc novamente, caso contrário o schedule não será mais executado.

É possível ainda utilizarmos scripts e schedules administrativos para deletar e definir associações, garantindo assim que os schedules sejam desativados e re-ativados automaticamente.

Exemplo (quero desativar meu schedule no dia 10/03/2012 as 20:00hs e quero que ele volte a executar no dia 11/03/2012 as 19:00hs).:

Nesse caso, vamos definir dois schedules administrativos que conseguimos resolver nosso problema.

Schedule 1

define schedule altera_scheds t=a cmd='del assoc domain schedule node' active=yes starttime=20:00 startdate=03/10/2012 peru=one day=any

Schedule 2

define schedule volta_scheds t=a cmd='def assoc domain schedule node' active=yes starttime=19:00 startdate=03/11/2012 peru=one day=any

Uma observação.: Tenha em mente que qualquer alteração, faz com que as evidências de execução não apareçam mais no Q EVENT, isso porque o EVENT é uma view e não uma tabela propriamente. De qualquer forma, se fizer alguma alteração e precisar buscar no TSM evidência de execução, utilize o ACTLOG (q act begind=-10 endd=today se=schedule_name)

Se pensarmos que em nosso ambiente corporativo, a lista de tarefas e atividades são grandes e que executamos muitas coisas em paralelo, a probabilidade de esquecermos de voltar o schedule é grande, portanto é mais garantido utilizar o update schedule.

Bom fim de semana a todos.

sexta-feira, 24 de fevereiro de 2012

Algumas consultas (querys) no TSM

Olá, boa tarde a todos...

Tenho recebido algumas perguntas muito interessantes, as quais, sempre que possível respondo por email mesmo.

O post de hoje é para responder para um colega iniciante na área, que tem demonstrado muito interesse em se aprimorar em TSM.

No TSM, é possível extrair diversas informações através de querys SQL. Essas querys facilitam e muito nosso dia-a-dia, onde é possível, por exemplo, traçar estimativas de crescimento com base na volumetria de backup gerada mês a mês.

A dúvida de hoje é mais simples.: Como faço para descobrir quais foram as últimas fitas utilizadas no ambiente ?

Um select básico seria este.:

select volume_name, last_write_date from volumes order by last_write_date

Mas é possível incrementar com mais informações, caso seja necessário, por exemplo se seu ambiente tiver muitos stgpools.:

select volume_name, stgpool_name, last_write_date from volumes group by stgpool_name, last_write_date, volume_name

Quantas fitas cada stgpool está utilizando.:

select stgpool_name, count(volume_name) as QTD_FITAS from volumes group by stgpool_name

Há fitas com erros de leitura ou gravação no ambiente.:

select stgpool_name, volume_name from volumes where write_errors<>0 or read_errors<>0

Eis alguns exemplos, mas há com certeza uma infinidade de querys possíveis. Sempre tomando cuidado com o tipo de query, uma vez que selects grandes, podem causar lentidão no TSMServer e em alguns casos extremos, quedas.

Um abraço a todos.

quarta-feira, 22 de fevereiro de 2012

Conselhos para novos administradores - Parte Final

Ao investigar os erros de sessões, olhe em ambas as pontas da sessão:

Os arquivos do ADSM-L estão cheios de publicações sobre problemas de sessão onde o técnico local olhou para indicações sobre apenas o client final da sessão que falhou. Obviamente, se o TSMServer cancelou a sessão, terá registrado algumas informações sobre o motivo. (A razão para os problemas da sessão é quase sempre encontrado no TSMServer.) Examine indicações em ambas as pontas da sessão para obter toda a imagem. Poste perguntas sobre erros de sessão no ADSM-L somente depois de investigar o todo, e não encontrar a resposta.

Verifique o anti-virus onde está rodando Jobs de backup:

Há inúmeros problemas provocados pelo anti-vírus, não só para o TSMServer, como para qualquer outro software de backup, quando executado, ao mesmo tempo em um servidor onde o backup está ativo. Funcionalidade e desempenho sofrem.

Não deixe que os usuários finais ditem as escolhas tecnológicas:

Dentro de uma organização, os usuários finais tendem a ser conhecidos por ditarem como um sistema deve ser implementado, com base em seus conhecimentos limitados e geralmente obsoletos para tecnologia de processamento de dados. Departamentos do usuário final são responsáveis por transmitir as necessidades do negócio, e não definir opções tecnológicas. O departamento de TI está, suponhamos, mais apto a opinar sobre tecnologias, e deve determinar a melhor implementação. Por exemplo, alguns usuários finais podem chegar a um esquema de backup para diários, semanais e mensais – obviamente com base em como eles viram, no passado, o funcionamento de alguns produtos de backup. Seus esquemas, provavelmente, não tem nada a ver com as necessidades do negócio, e se for seguido seria subverter as capacidades do TSMServer que custou caro para a empresa, que o adotou, para segurança inteligente dos dados de negócio.

Não use todos drives para fins administrativos:

Há ocasiões em que você, como administrador do TSMServer quer fazer um monte de coisas, como fazer o backup de stgpools, reclaim e restore de fitas, e por isso somos tentados a usar cada drive. Não! Na maioria dos ambientes, solicitações de clients podem vir a qualquer momento. A ocupação de todos os drives, no mínimo causará delay nas sessões. Também pode causar que os processos administrativos sejam preteridos ... e se você esperava liberar fitas scratchs o suficiente com o reclamation, próximo ao horário da janela de backup, você pode, (e muito provavelmente será) ser rudemente surpreendido mais tarde.

Conselho para análise de um problema. Alguns pontos nesta área:

- Na lista de discussão(mailing do ADSM), vemos muitas postagens sobre problemas de performance que começa com.: "Nós temos dois sistemas idênticos ...". Nunca acredite que dois sistemas são idênticos. Tal coisa é fisicamente impossível, e se acredita, irá inibir uma análise mais produtiva de problemas de performance do sistema. Diferenças são saudáveis, e dar a oportunidade de comparar os efeitos de diferentes ingredientes.

- Como uma extensão do exposto, não entre em uma análise de qualquer sistema com noções preconcebidas de como as coisas estão acontecendo nesse sistema. Faça isso e você vai se cegar para funcionamento do sistema real. Coloque-se em uma mentalidade de procurar, para saber o que está acontecendo, e sua análise será muito mais eficaz.

- "Mas, nada foi mudado!" Bem, às vezes, isso é uma coisa ruim. Sistemas podem rodar durante muito tempo, muito bem, apesar de terem software, firmware, ou adaptadores com problemas latentes. Muitas vezes, há mensagens de erro em “backuground” que aparecem, mas o cliente ignora, porque "as coisas estão funcionando". Tudo que torna uma situação incomum, porém, para causar a falha total, como o hardware e/ou software, de repente enfrenta condições que estão além ou incompatível com sua programação. Ignorando os sinais de perigo é uma má idéia. Mantenha seu sistema com boa saúde.

Não confie cegamente nos fornecedores:

Nós queremos que todos sejam confiáveis, mas em questões envolvendo dinheiro, a confiança tem de ser mensurada. Enquanto os fornecedores são geralmente escrupulosos, há aqueles cujas mentalidades fazem com que habitualmente recorram a truques sujos (Microsoft é um exemplo), e casos em que ocorrem lapsos, como quando surge um novo executivo. Em particular, tenha a certeza de que sua área de compras/jurídico debrucem sobre todos os detalhes contratuais.

Espere verrugas:

Não crie expectativa de que nenhum release de qualquer software seja perfeito. Todo release de qualquer coisa tem algumas verrugas. Por exemplo, upgrade para o TSMServer 5.2.4 para resolver alguns problemas e obter menor incômodo do query process com texto desalinhado para processos de Reclaim. A palavra de ordem na vida: "É sempre alguma coisa."

Baixe os docs de fornecedores enquanto estão disponíveis:

Há uma tendência natural a considerar que a documentação online do fornecedor como sempre estar lá e de fácil acesso. A realidade é que os fornecedores (mesmo IBM) derrubem seus servidores web horários de pico (apenas quando você pode estar em apuros); e eles removem os docs mais antigos para liberar espaço para os novos. Então, quando você encontrar um PDF útil, utilize todos os meios para salvar uma cópia no seu sistema local. Isso vai tornar o acesso rápido e seguro.

Incentive a atualização da arquitetura de dados do departamento de TI da empresa:

Regularmente vemos postagens de administradores TSM tentando lidar com um backup de um filesystem contendo um número enorme de arquivos (muitos milhões), resultando em ANS1030E e outros problemas; e vemos também, sistemas 32bits, relativamente pequenos, controlando terabytes de dados. Tais situações são normalmente encontrados em sistemas Windows, que estão sob o controle de grupos de trabalho que são destemidos por conceitos de processamento de dados e consideram o sistema Windows como assim como o PC que eles usam em casa. O resultado comum é um único filesystem ocupando discos inteiros: este filesystem é enorme, e eventualmente 100% ocupado, com um grande número de arquivos. O resultado é uma massa de dados pesada, problemática, difícil de fazer backup e singularmente vulnerável a um problema de mídia ou de corrupção lógica. Arquitetura racional para organização de dados em partições de tamanho razoável, facilitando o gerenciamento e o backup, e eliminando o ponto único de falha. Uma organização com um bom departamento de TI irá publicar diretrizes sólidas para as melhores práticas na implementação de discos e filesystems, para ajudar a evitar passivos.

Planeje tirar proveito da evolução dos drives:

Alguns sites, por vezes, utilizam-se de uma library e um modelo de drive e nunca pensam em evoluir conforme o tempo passa, e se aproximam de esgotamento da capacidade. Os sites deveriam planejar a migração dos drives para as gerações posteriores de sua tecnologia, o que permite manter uma margem de capacidade saudável dentro dos limites da library existente. Por exemplo, uma library 3494, com drives 3590E pode aumentar em 10x ou mais em capacidade, adicionando drives 3592 – uma evolução que não exige mais uso de espaço físico, e até economiza em energia e remoção de calor. Librarys SCSI podem desfrutar de ganhos semelhantes aos avanços da tecnologia LTO.

Se estiver rodando Unix, instale o comando lsof.

O comando lsof é uma ajuda inestimável para a análise do sistema, listando arquivos, portas, sockets, e outros objetos em seu ambiente operacional. Usando este comando, você pode determinar imediatamente quais portas seus TSMServer e client estão usando.

Para dúvidas, críticas, sugestões ou correções, postem no blog ou mandem um email para tsmnapratica@gmail.com.

Um abraço!

terça-feira, 10 de janeiro de 2012

Diferença entre o Occupancy e o Import/Export

Por que há diferença de quantidade de objetos entre o Q OCC e as estatísticas do processo de import/export?

O comando Q OCC somente mostra os dados que estão retidos nos respectivos stgpools (tanto o primário quanto o pool de cópia, se houver). O Q OCC mostra a quantidade de arquivos, o espaço lógico e o espaço físico ocupado, e qual stgpool estão esses objetos.

O Q OCC não mostra os objetos que não estão armazenados no stgpool. O objeto que mais se enquadra nessa situação são os diretórios. Diretórios somente ocupam espaço no DB do TSM.

O processo de import/export irá reportar todos os dados que serão gravados em fita. Isto inclui todas as definições do nodes assim como todos os arquivos (objetos) que aparecem no inventário do server que se enquadram na especificação do FILEDATA. O processo de import/export conta cada um desses objetos bem como o tamanho. Com uma grande quantidade no número de diretórios envolvidos no processo, teremos uma grande diferença no "número de arquivos" entre o Q OCC e as estatísticas do import/export.

Portanto, os dados do occupancy deveriam ser usados apenas para estimar as estatísticas do processo de import/export.

sexta-feira, 6 de janeiro de 2012

Delete Filespace

Qual a ordem de deleção de objetos que o TSM faz quando rodamos o comando DELETE FILESPACE ?

A pergunta é válida para os casos em que alguém executa esse comando e logo em seguida, percebendo o erro, faz o cancelamento do processo.

O DELETEFILESPACE irá deletar todos os arquivos de todos os filespaces existentes no node. A deleção de objetos é executada em uma ordem para minimizar os danos caso o comando seja erroneamente executado.

A ordem de deleção será a seguinte.:

1- Backups Inactives

2- Backups Actives

3- Archives

4- Space managed files

Caso tenham alguma dúvida, sugestão, correção ou críticas, por favor escreva para tsmnapratica@gmail.com.