MENU

Escrito por • 06/07/2008

parou por quê? [o dominó de sorocaba]

tinha que acontecer em são paulo. ou tinha que ser notado em são paulo, porque partes da internet apagam o tempo todo, em estados e cidades menos votadas [e menos conectadas], e não chegam no noticiário nacional. por quase dois dias [ou mais, dependendo de onde você está] a internet do estado e da cidade mais rica e conectada do país entrou em colapso. mas colapso mesmo. e isso aconteceu, vale a pena lembrar, com uma rede cuja proposta original [da década de 60] era resistir a ataques nucleares. ou seja, mesmo que alguém detonasse [literalmente!] uma boa parte da infra-estrutura, a rede, pensada e construida para ser resiliente, deveria resistir ao ataque e continuar viva. com uma performance menor, certamente, mas fazendo o que tinha que fazer. como é que são paulo entrou em colapso? em suma, parou por quê?

prá começar, acho que devemos dar crédito à operadora; segundo a versão oficial, um roteador [em sorocaba] detonou a rede inteira. não há nenhuma razão para a telefônica esconder a verdade, principalmente estando sob o escrutínio da sociedade inteira, do procon à anatel, passando pelo minicom e ministério público. mentir agora significa transformar um problema muito grande no presente em outro, gigantesco e inadministrável, no futuro. até porque a telefônica pode ter sido a vítima, e não o causador do problema. segundo seu presidente, é … "muito difícil" que o problema tenha sido provocado por sabotagem ou ataque externo de hackers, mas não descartou a possibilidade. isso já aconteceu antes, nos estados unidos, na índia, no resto do mundo. e companhias que dependem só da web para existir, como a amazon, vez por outra desaparecem. a causa é muito provavelmente uma combinação de problemas de infra-estrutura, software, fatores humanos e… azar.

para resistir a problemas em algumas de suas partes, a rede tem que ser redundante. não completamente redundante, porque o custo seria alto demais e, por conseguinte, pagaríamos um preço alto demais para ter uma maior garantia de serviço. mas a rede [qualquer rede do tipo internet] teria -tem- que ter infra-estrutura em quantidade e qualidade suficiente para garantir que a queda de um roteador [a coisa que decide que caminhos usar para conectar agentes, como eu e você ou o servidor do meu blog e seu browser] não derrube a rede inteira. o acidente com o roteador de sorocaba, que parece ter causado um efeito dominó, pode ser uma indicação de que não havia redundância suficiente, na rede física que provê internet para o estado de são paulo, para garantir a continuidade do serviço em certas condições de pane.

mas a causa pode não ser tão simples assim: em 2001 e 2003, parte considerável da rede mundial entrou em colapso por causa de um worm, um tipo de programa de computador que se espalha rapidamente e causa, principalmente, o aumento da ocupação dos servidores, roteadores e das conexões da rede, levando todo o sistema ao limite. e isso aconteceu logo depois de um grupo de pesquisadores ter alertado sobre o aumento da centralização da rede e dos riscos que isso representava para o sistema como um todo. a rede comercial, segundo o estudo, estava se desviando dos princípios fundamentais da internet, que se pautava principalmente pela redundância e por protocolos que não garantiam a entrega da informação enviada ou solicitada, mas faziam o possível para tal [protocolos best effort ]. os protocolos da internet ainda são best effort; mas a rede, principalmente a rede privada, se centraliza cada vez mais, trocando resiliência por economia de escala e menores custos [e maiores margens].

resultado? se a rede da telefônica fosse mais fiel aos princípios originais de desenho da internet, sorocaba não teria derrubado são paulo inteiro, e por quase dois dias, tirado todo mundo do ar. como não é, deu no que deu. culpa da telefônica? provavelmente não, porque todas as redes de todos os grandes provedores estão montadas da mesma forma…

este blog defende a tese de que a internet está se tornando uma infra-estrutura tão essencial para a sociedade como a eletricidade; e informática [incluindo internet] deve ser, para o usuário final, tão simples e tão confiável como eletricidade. claro que há muita complexidade até a eletricidade chegar à minha casa mas, para mim [e todos nós], todos os problemas ficam escondidos atrás da tomada. a coisa existe, e é muito simples de usar, ou não existe. não há meio termo. a isso eu dou o nome de informaticidade [veja uma definição aqui].

essa tal de informaticidade [que inclui a internet], tem que ser tratada, pelos provedores e pelos reguladores, como se trata eletricidade. não que vá haver uma burocracia para se usar a internet [e outras coisas de informática]; isso ninguém quer. mas é preciso chegar mais perto de quem provê a infra-estrutura da qual todos passamos a depender, do hospital à escola, da balada ao banco, e trabalhar, com todos os envolvidos, para aumentar as garantias de que a rede não vai nos faltar. sem querer sugerir que apareça um operador nacional do sistema [de internet], como há um ONS para energia, pode ter passado a hora dos grandes provedores se articularem para interligar suas redes e dar-lhes, e a nós todos, um grau de redundância e qualidade de serviço bem maior do que temos hoje.

se eu estivesse nas teles, estaria correndo atrás disso há algum tempo, com urgência e foco. e por uma razão simples: num país de tradição imperial e autoritária como o nosso, se rolar mais uns dois dominós destes, é capaz do congresso aprovar uma regulação maluca para o provimento de serviço internet, por cima da anatel. esta, sabendo disso, pode começar ditando alguma regra pra não sofrer um drible da vaca dos senhores parlamentares. e alguma coisa já deve estar na cabeça do comitê gestor da internet, o cgi.BR, que, até pra não ficar soterrado pela derrocada dos dominós, pode também tomar alguma iniciativa.

para todos os efeitos, passado o barulho do dominó de sorocaba, seria bom que sua conseqüência fosse uma ampla melhoria na infra-estrutura de rede do país, causada principalmente por uma maior e há muito necessária articulação entre as grandes redes, sem esquecer do suporte aos pequenos provedores, que são os únicos que chegam a muitos pequenos e escondidos lugares do nosso mapa.

Artigos relacionados

0 Responses to parou por quê? [o dominó de sorocaba]

  1. lukas disse:

    pra mim o colapso tem culpa sim, e é da telefônica…

  2. marcelo disse:

    minha visão sobre o assunto como profissional de TI é de que estas entidades que sofreram com a falha da telefonica ou não quiseram investir em uma solução para este problema, ou a diretoria não fo alertada por seu setor de TI que uma queda em um link deixaria a entidade sem acesso a internet, ou até mesmo não dispõe de pessoal qualificado.

    Uma solução como estas não checa a ser de alto custo vamos dar um exemplo com valores aproximados para uma pequena/media empresa com 50/100 compudatores

    link telefonica empresas 4mb aprox 120,00
    link embratel 4mb aprox 90,00 (vem com 4 linhas telefonicas)

    máquina que será o servidor (lembre-se é seu servidor, então deve ser uma máquina muito boa, boa mesmo, caso não queria problemas em sua rede)
    pentium 4 dual 2,4
    2gb ram
    hd
    placa mae (de qualidade)
    3 placas de rede gigabit

    aprox. $ 900,00

    Serviço : servidor com software livre, configuração de roteador, balanceamento de carga para 2 links, proxy para melhorar o desempenho da rede e colocar regras de acesso ( para o pessoal interno não desfocar do trabalho) e um anti-virus para proteger suas estações de virus da internet.

    aprox. 1500,00

    ou seja de serviço e equipamento são $2400,00.

    + $210,00 mensais dos links.

    ou seja não é um custo alto para não ficar sem internet em uma entidade toda ficar sem internet por 2 dias.

    obrigado

    estou a disposição para esclarecimentos

    marcelo@cdznet.com.br

  3. Arnoud disse:

    Professor Meira, um link que acredito o sr. vá gostar muito.

    http://www.elmundo.es/elmundo/blogs/lapurezaestaenlamezcla/index.html

  4. Daniel Venturole disse:

    Olá Silvio,

    Apesar de acopanhar o seu blog já a algum tempo, é a primeira vez que comento um post.

    A respeito do conceito de informaticidade, acredito que seja similar aos conceitos em difusão no exterior, computação pervasiva (pervasive computing) e ubíqua (ubiquitous computing), que prega que a internet deve estar disponível o tempo inteiro, para que diversos meios de acesso possam extrair informação a partir dos dados que trafegam nela, que será o real valor que se vai obter da rede daqui em diante. Acredito que as iniciativas de computação em nuvem (cloud computing) e computação em grade (grid computing) sejam um passo nessa direção, tornando SWs e recursos de HW como memória e poder de processamento disponíveis on line para os usuários, não necessitando então de terminais tão poderosos. No entanto, carecemos ainda de interfaces mais intuitivas para utilização plena desses recursos (estamos avançando , vide Surface, iphone, windows 7…) e meios de busca mais precisos (avançamos também).

    Quando até Ray Ozzie diz que estamos na era da web, acho que não temos como errar.

    Fiz um TCC sobre esse tema na faculdade, e posso dizer que o seu blog é um dos únicos lugares em que vejo uma real discussão e preocupação em difundir esse tema na sociedade. Na empresa de telefonia em que trabalho já alertei para a necessidade de desenvolver serviços que suportem a informaticidade, mas ainda não fui propriamente ouvido.

    Parabéns pelo seu trabalho!
    um abraço

  5. Ricardo Carneiro disse:

    Prezado Meira

    A culpa e da Telefonica sem qualquer duvida, se ela nao sabe escolher seus prestadores de servico e seus fornecedores de equipamentos o problema e dela, simples.

    O importante e ressaltar que outros apagoes virao, e muito provavelmente com outras operadoras.

    Att.

    Ricardo Carneiro

  6. fabiano souza disse:

    Boa tarde,

    >>>A culpa e da Telefonica sem qualquer duvida, se ela nao sabe
    >>>escolher seus prestadores de servico e seus fornecedores de
    >>>equipamentos o problema e dela

    Desculpe Ricardo, mas sua visão é muito ingênua…
    Não estou defendendo a Telefonica, contudo os mesmos fabricantes fornecem para redes militares norte-americanas bem como as maiores e melhores companhias no mundo. Então, apenas dizer simplesmente, que “não sabe escolher” é uma visão ingênua.
    Concordo plenamente com os argumentos do Silvio Meira, lembrando que a internet, sem o modelo ideal de décadas atrás e imersa agora em um mundo empresarial, sempre se pode “apertar” mais um pouco para diminuir custos, esta é a realidade da maioria das redes brasileiras.
    não dá para ter 2,3,4,5,6 links de 155Mbps “só” para ter disponibilidade, ou dobrar todo o parque de servidores para manter o serviço 100% no ar… Cada negócio sabe o quanto tempo pode ficar indisponível e o quanto está disposto a investir (ou não) nisto …
    e ainda assim, não se assegura 100%
    a complexidade aumenta, e creio que estes tipos de problemas tendem a aumentar…
    Att,
    Fabiano

  7. Yuri Motta disse:

    Prezado Silvio,

    Para mim, sua análise é perfeita. Desenho de redes é o ponto em questão e isso remete a responsabilidade à Telefônica. A culpa? … acho que é de todos nós, pois ainda pensamos Best Effort.

    Att.
    Yuri

  8. Danise Victor disse:

    Concordo com Yuri.

    Valeu Silvio.

  9. Morsello disse:

    Silvio,

    seus medos tem muito fundamento. Passei algum tempo trabalhando para a Telefonica num cliente corporativo, e este tipo de problema já estava acontecendo com a rede MPLS há tempos. Como passou a minha clausula de sigilo…

    Não é probema tecnico nem de fornecedores, pois todos os equipamentos sao de primeira linha e os profissionais internos também. Ambos alertavam que a Telefonica estava utilizando os roteadores de core em niveis muito acima do recomendado pelo fabricante e da pratica de mercado.

    Outro problema sério era que o reparo de trechos redundantes é demorado e às vezes ficava parado a espera de troca de peças e equipamentos, por falta de orçamento. Assim, o trecho fica sem contingência ou com capacidade restrita por longos periodos.

    Assim, com equipamentos saturados e falhas na redundancia, quando acontece um problema nos roteadores de core, leva-se um tempo grande até que todo o trafego consiga se reacomodar nos outros canais e equipamentos, estabilizando a topologia de roteamento.

    Note que durante aqueles dois dias tivemos rede degradada, e graves problemas no acesso aos servidores de DNS, que fez parecer um indisponibilidade geral.

    Os problemas são no fundo a politica da matriz de maximizacao dos seus já altos lucros em detrimento à seguranca e qualidade dos serviços prestados.

    Mas este evento foi positivo. Primeiro, a Telefonica assumiu de publico seu problema tecnico (ao menos em parte), coisa que antes escondia até de seus parceiros comerciais mais fieis.

    O segundo ponto, foi a intervenção da Anatel, bloqueando a venda de ADSL. Com isto, a matriz notou que a legislação brasileira de proteção ao consumidor era para valer, e teve que voltar a investir na infra-estrutura. Isto era o pedido antigo de tecnicos e fornecedores.

    A Telefonica sempre soube dos problemas e de como soluciona-los, mas os “donos do dinheiro”, não deixavam faze-lo.

    E que não se ache que é um problema apenas desta operadora. Isto é regra geral, mas ate´ por menor utilização e clientes, aparece menos.

    Este caso mostra que precisamos mesmo de regulamentação, ou se corre sérios riscos de centralizacao demasiada com riscos enormes de indisponibilidade aos usuários.

  10. Morsello disse:

    Silvio,

    agora quanto à parte legal.

    Creio que se deixarmos nossos legisladores livres para criar, vamos ter uma legislação ridicula, que teimará em legislar sobre aspectos técnicos, e que certamente será distorcida pelos lobbies das operadoras, para não lhes impingir muito custo.

    Outra ponto muito suscetivel a pressões corporativa são entidades reguladoras como a ANATEL, ANEEL e outros. São entidades servem mais para excluir empresas que “pisam na bola” de forma grotesca, a ponto de comprometer todo o mercado e os concorrentes.
    Foi o que aconteceu neste caso.

    Minha experiencia mostra que a unica forma de se “vender” investimentos em contingência é obrigar a existencia de SLAs para os serviços. E ter pesadas multas no caso de desrespeito;

    Se uma empresa, para ter direito de venda de conexão, tiver multas pesadas se gerar indisponibilidade, vai investir em infra-estrutura redundada, como forma de seguro ao seu risco.

    Outra vantagem dos SLAs é que se mede facilmente a qualidade do serviço. Minutos de indisponibilidae no mês são fáceis de entender mesmo para leigos e legisladores. Aspectos tecnicos não.

    A ANEEL já tem este tipo de classificação e avaliação das operadoras de energia, medindo falhas no fornecimento, mas tenho dúvidas quanto à fidelidade e isenção das medições.

    Talvez a forma mais simples seja adotar um modelo que une uma legislação com garantias de disponiblidade e performance ao usuario final, e ter um servico de monitoracao destes numeros, este isento.
    Talvez orgão estatal ou colaborativo com adesão de consumidores que sirvam de ponto de medição.

    Assim, qualquer usuario prejudicado tem base legal para acionar a operadora no seu caso, e não apenas neste tipo de catastrofe geral como com o roteador de Sorocaba.