MENU

Escrito por • 22/04/2014

definindo BIG DATA

vez por outra alguém faz uma previsão radical que realmente acontece, e até mais do que pensado. doug laney é autor de uma delas, de 2001, sobre como negócios intensamente dependentes de informática [e-businesses] iriam mudar a forma de capturar, processar, armazenar, recuperar e [entre muitas outras coisas…] apresentar dados. a previsão original de laney era que

During 2001/02, leading enterprises will increasingly use a centralized data warehouse to define a common business vocabulary that improves internal and external collaboration. Through 2003/04, data quality and integration woes will be tempered by data profiling technologies (for generating metadata, consolidated schemas, and integration logic) and information logistics agents. By 2005/06, data, document, and knowledge management will coalesce, driven by schema-agnostic indexing strategies and portal maturity.

no mesmo texto, laney também definia o que iria mudar, nos dados corporativos, a ponto de causar mudanças radicais na gestão de seu ciclo de vida e, claro, nos processos computacionais associados. segundo laney, os negócios passariam a depender do entendimento de novos e muito maiores volumes, velocidade e variedade de dados no seu dia a dia. a imagem correspondente, ainda da previsão original, é mostrada abaixo.

image

dia destes, participei de uma discussão para encontrar uma definição contemporânea para a noção de big data, uma das expressões mais pronunciadas pelas comunidades de informática e negócios nos últimos anos, e que quase ninguém consegue definir com alguma precisão, como acontece com quase toda buzzword de TICs. a minha sugestão foi de que o essencial ainda está lá na previsão de laney, especialmente para quem se dedique a ler o original com cuidado e situar a previsão no contexto atual. partindo da definição original, minha sugestão é de que…

…a expressão BIG DATA se refere qualquer coleção de dados cuja combinação de volume [tamanho da coleção],variedade [dos tipos de dados e das suas fontes] e velocidade [de geração e captura dos dados e de eventuais mudanças de formatos, fontes… e seu efeito no ciclo de vida da informação] esteja no limite ou exceda os métodos, processos, algoritmos e capacidade computacional contemporânea para simplificar seu entendimento através de sínteses capazes de gerar significados para os modelos e processos de negócio para os quais estão sendo levados em conta.

definida em termos de 3V/3S, a expressão BIG DATA passa a ser [quase] atemporal e vai continuar valendo por muito tempo. buzzwords como big data ou banda larga deviam ter definições mais ou menos como esta, sem o que perdem significado. há 15 anos, banda larga queria dizer, basicamente, acesso não discado à rede. hoje, pense, quantos megabit por segundo você queria ter para dizer que tem, mesmo, acesso em banda larga? pois é. precisamos de definições que resistam ao tempo, pra ter menos buzzwords e mais conceitos, em TICs. aliás, qual seria uma definição atemporal de banda larga, hoje e por muito tempo?…

Artigos relacionados

11 Responses to definindo BIG DATA

  1. Walter disse:

    Olá Silvio,

    Ano passado tive a oportunidade de participar do summer school na ufrj sobre big data. Apesar de muitas definições, palestras sobre diversos tópicos de big data, senti falta de um exemplo palpável de um big data. Estou terminando meu mestrado no CIn e minha área de pesquisa é a Web Semântica. Você acha que a Web de Dados pode ser considerada um exemplo de Big Data?

  2. Edu disse:

    Oi Silvio,

    da uma olhada nesse paper.
    http://www.vldb.org/pvldb/vol4/p694-campbell.pdf

    Na verdade, este paper é so uma chamado para uma apresentação antiga que me fez pensar no seguinte:
    Será que um arquivo “pequeno” (na linha do termo “volume”), mas complexo o suficiente para demandar horas de processamento não poderia ser problema “bigdata”?
    Sera que BI em codigo fonte na busca por bugs não seria um problema de “bigdata”?
    Sera que propagação de consultas em sensores com leitura limitada de streams, (eg., por sliding window), não seria “bigdata”?

    abs,
    EC Almeida

    • Silvio Meira disse:

      edu,

      o caso do arquivo “pequeno” que demanda um processamento “grande” e/ou, por outro lado, “complexo”… não é um caso de “big data”, na minha opinião, mas de GRAND ALGORITHMS, como eu discuto no link… http://bit.ly/T5xgyR.

  3. Erick Passos disse:

    Silvio,

    Gostei da definição usando as variáveis volume, variedade e velocidade, confrontando isso com ações e processos. Eu entendo isso também da seguinte forma: big data não necessariamente excede a capacidade de processarmos cada uma dessas variáveis em si.

    O poder computacional e algoritmos eficientes permitem se lidar, atualmente, com as 3 variáveis, mas apenas para dados plenamente estruturados vindos de fontes tradicionais. O que Big Data representa é essa extrapolação que impede tratar todas as 3 simultaneamente.

    Exemplo: Talvez possa ser possível processar em tempo real (velocidade), mas nesse caso é preciso restringir uma das ou ambas as demais (volume e variedade).

  4. Gilberto Camara disse:

    Estimado Silvio

    Minha definição de “big data” é mais genérica e refere-se à re-organização de grandes quantidades de dados para fins de análise. Não gosto dos VVV, pois há exemplos de big data que não atendem a estes critérios.

    O V de variedade se refere mais ao fato dos dados não serem organizáveis de forma eficiente em tabelas em bancos de dados relacionais. Ou seja, o que acontece é que os sistemas corporativos que dispomos não são adequados para lidar com dados do tipo Facebook, Twitter e Amazon. Rigorosamente, o V de variedade só vale na hora da concepção do sistema de informação. Uma vez o sistema bem concebido, é só questão de Volume e pode nem necessitar de tanta Velocidade.

    O desafio de “big data” é muito mais um desafio de concepção e arquitetura de sistemas de informação do que de Volume, Velocidade, e Variedade. Quem está tendo sucesso com “big data” é quem pensa fora dos cabrestos que são impostos pelas escolas de informática. O “map-reduce” do Google é uma solução inspirada em Programação Funcional (quem ainda sabe o que é isso?). Funcionou porque o pessoal da Google pensa antes de fazer.

    Pensar em “big data”, antes de pensar em VVV, é pensar em sistemas de informação cujos conceitos, estruturas e algoritmos não podem ser construídos a partir das técnicas “convencionais” de modelos relacionais e programação orientada-a-objetos, que é o que a maioria dos informáticos aprende na escola.

    Segue uma tentativa de definição: “Big data” se refere a uma coleção de dados de grande volume que não pode ser tratada com técnicas convencionais de sistemas de informação.

    Abraços
    Gilberto.

  5. Eduardo Nóbrega disse:

    Olá Silvio, gostei de sua definição, mas já tem gente adicionando mais um V na brincadeira. Volume, Velocidade, Variedade e o quarto é a VERACIDADE.

    http://www.ibmbigdatahub.com/infographic/four-vs-big-data

    []`s
    Eduardo.

    • Silvio Meira disse:

      eduardo, veracidade não faz muito sentido neste contexto… porque BIG DATA *sujo*, cheio de coisas *falsas*… continua sendo BIG DATA; aliás, *limpar* um destes universos é um dos mais radicais problemas de BIG DATA… por isso que não acho que *veracidade* precisa ser parte essencial da definição.

  6. Big Data são dados que excedem o armazenamento, o processamento e a capacidade dos sistemas convencionais (volume de dados muito grande, gerados rapidamente e que não se encaixam nas estruturas de arquiteturas de sistemas atuais). Além disso, para obter valor a partir desses dados, é preciso mudar a forma de analisá-los.

  7. Cristina disse:

    Silvio,

    para mim BIG DATA é uma coleção de dados cuja complexidade da computação requerida está no limite ou excede a sua capacidade de processamento.

    Veja que a complexidade é função do tamanho dos dados e do processamento necessário para se obter o resultado desejado. Por exemplo, podemos tratar uma quantidade gigantesca de dados com custo O(log n) mas se o custo for exponencial pode ser difícil obter o resultado mesmo para n pequeno. Então, não é apenas o tamanho que importa mas também o tipo de processamento. O que eu chamo de complexidade inclui os 3Vs.

    Considero também muito importante que a capacidade computacional a ser comparada seja uma a que temos acesso. Não adianta comparar com algo etéreo como uma “capacidade computacional contemporânea”. O que é BIG DATA para uns pode não ser para outros. BIG é um conceito relativo. Cada um precisa entender o que é BIG para si. A capacidade computacional de instituições e empresas é variável, e muito variável, por isso cada um tem o seu BIG DATA. O que é BIG DATA para uma pequena empresa deve ser diferente do que é BIG DATA para uma grande empresa. Isso é importante porque muita gente deve estar tratando com BIG DATA até sem saber, julgando seus dados por um conceito genérico de BIG DATA.

    Além de ser relativa à capacidade computacional, a complexidade evolui com o tempo: por exemplo, em 1980, um BIG DATA importante foi o conjunto de dados do censo americano.

    abraços, cristina