domingo, 9 de janeiro de 2011

Bilhões de dados e um padrão

Nicholas King, secretário-executivo do Mecanismo Global de Informação em Biodiversidade (GBIF), fala sobre os desafios para a interoperabilidade e integração das bases de dados disponíveis em diversos países (GBIF)

Por Fábio de Castro

Agência FAPESP – Fundado em 2001, o Mecanismo Global de Informação em Biodiversidade (GBIF, na sigla em inglês) é a maior iniciativa multilateral voltada para disponibilizar dados sobre biodiversidade na internet com acesso livre.

Envolvendo 55 países, o mecanismo ainda não conta com o Brasil entre seus signatários. Mas, para o secretário-executivo do GBIF, Nicholas King, a adesão brasileira é questão de tempo.

Segundo ele, a publicação dos dados científicos em uma plataforma padronizada global poderá ser importante para as discussões em torno da implementação do Protocolo de Nagoya no aspecto que mais interessa ao Brasil: o acesso e repartição de benefícios provenientes da exploração da biodiversidade

O GBIF se destaca por ter desenvolvido protocolos e padrões inovadores capazes de garantir a integridade e a interoperabilidade de bancos de dados heterogêneos espalhados por todo o planeta. A arquitetura informacional do mecanismo permite a interconexão de diversos tipos de dados de fontes diferentes, segundo King.

Nascido no Quênia e criado na África do Sul, King é graduado em biologia, ecologia e geografia e fez seu doutorado em gerenciamento de tecnologia, especificamente voltado à gestão de recursos naturais. Completou sua formação acadêmica nos Estados Unidos e na Inglaterra e se tornou o líder do GBIF em 2007.

Em dezembro, King esteve no Brasil para participar da conferência internacional Getting Post 2010 – Biodiversity Targets Right, realizada pelo Programa Biota-FAPESP, pela Academia Brasileira de Ciências (ABC) e pela Sociedade Brasileira para o Progresso da Ciência (SBPC). Na ocasião, apresentou uma palestra sobre a interoperabilidade e integração de bancos de dados sobre biodiversidade.

Agência FAPESP – Quais são os principais desafios relacionados ao compartilhamento de dados sobre biodiversidade?
Nicholas King – Há um certo número de desafios para se compartilhar informações e conseguir uma interoperabilidade entre os bancos de dados. Eu diria que eles estão concentrados em três vertentes fundamentais da noção de compartilhamento: os dados propriamente ditos, o sistema e as pessoas. Todos são necessários, mas nenhum é suficiente.

Agência FAPESP – Quais são as dificuldades relacionadas aos dados?
King – Há conjuntos de dados ao redor de todo o mundo, com características muito distintas entre eles. O único ponto em comum é que nunca são captados com a intenção de serem compartilhados. Por isso, são capturados com diferentes formatos e técnicas. Muitas vezes em diferentes línguas. São obtidos, por vezes, sob diferentes sistemas de gerenciamento. Variam também os sistemas métricos – os registros podem ser feitos em polegadas e pés ou no sistema métrico decimal. Há também sistemas de georreferenciamento muito distintos. A linguagem muda, com diferentes nomes usados para diferentes lugares – eventualmente até mesmo nomes distintos para um mesmo país. Não podemos apenas pegar esses dados, colocá-los juntos e operá-los. Eles são totalmente incompatíveis. Eles simplesmente não se combinam.

Agência FAPESP – Qual seria a solução para isso?
King – Há uma analogia simples com uma situação comum para quem viaja muito ao redor do mundo: você quer ter acesso à eletricidade, mas o plugue de que dispõe simplesmente não encaixa na tomada de um hotel, por exemplo. É necessário, então, ter algum tipo de adaptador. E é bem isso o que precisamos para os dados: que sejam reformulados em um formato padronizado, de modo que possam ser acessados.

Agência FAPESP – O GBIF procura fazer o papel de um adaptador?
King – Esse adaptador seria o que chamamos de arquivos Darwin Core, um padrão global para dados que foi desenvolvido para facilitar a descoberta, a recuperação e a integração de informações sobre espécimes biológicos ou ocorrência espaço-temporal. Mas, ao longo do tempo, o Darwin Core acabou fornecendo uma referência estável e padronizada para compartilhar informações sobre biodiversidade.

Agência FAPESP – Como é o funcionamento desse padrão?
King – Ele funciona como um glossário de termos que fornece definições semânticas estáveis, de forma que possam ser reutilizadas em inúmeros contextos. O Darwin Core serve como base para a construção de formatos mais complexos de intercâmbio de informação, garantindo a interoperabilidade de um conjunto comum de termos. Os arquivos nesse padrão dispõem os dados em um arranjo lógico com uma geometria semelhante à de uma estrela, em que cada arquivo-núcleo está cercado por um grande número de extensões. Cada registro de extensão remete para um arquivo-núcleo. Isso permite compartilhar conjuntos de dados inteiros.

Agência FAPESP – Além da questão dos dados, quais são os desafios relacionados ao sistema?
King – A tecnologia da informação propriamente dita é uma questão à parte. Você não pode ter acesso aos dados se não estiver conectado com a internet, por exemplo. Mas, para isso, é preciso encontrar soluções de modo que se tenha conectividade, largura suficiente de banda, capacidade de processamento computacional e assim por diante. Precisamos dos canais que permitam os dados fluírem. É a questão da infraestrutura que se sobrepõe à questão de como lidar com os dados. O terceiro componente crítico é a disponibilidade de recursos humanos.

Agência FAPESP – Qual o gargalo nesse aspecto?
King – Precisamos de gente que entenda, que seja capaz de utilizar bases de dados e que consiga lidar com questões de tecnologia da informação. Temos carência de pessoal capaz de utilizar os dados para fazer análises. Uma vez que se tem acesso aos dados, temos que saber o que fazer com eles. É fundamental entender a informação biológica e saber como interpretá-la. Necessitamos de capacidade humana e de infraestrutura e que os dados estejam em certos formatos para que possam ser usados. Há ainda uma quarta questão, relacionada ao que chamamos de compromisso político.

Agência FAPESP – No sentido institucional?
King – Sim, é preciso haver integração entre instituições, empresas, governos e outros para que se possa compartilhar dados. Às vezes, certos dados são sensíveis porque têm valor econômico, ou importância crucial para a conservação. Então, temos que contar com políticas de acordos institucionais e internacionais para que se tenha capacidade de compartilhar esses dados. Acho que esses são os quatro componentes fundamentais para que seja possível a interoperabilidade dos bancos de dados.

Agência FAPESP – Para conectar os conjuntos de dados de diversos países é preciso fazer com que eles se adaptem a uma só padronização, na mesma linguagem?
King – Não é tão necessário ter uma só linguagem, contanto que tenhamos softwares capazes de fazer essa “tradução”. Essencialmente, nos dados sobre espécies temos uma linguagem universal, que é o nome da espécie em latim. Isso é o uso corrente em diferentes países. Há nomes vulgares e diferentes nomes regionais, ou em línguas diferentes, mas, fundamentalmente, podemos mapear todas as espécies a partir de seus nomes latinos. Fora isso, a única questão é o padrão dos dados, sobre o qual estávamos falando. Essencialmente, o que a padronização de dados coloca em questão é uma língua única para os campos de indexação. Se completamos esses campos de dados convenientemente, então eles podem se harmonizar por todo o mundo.

Agência FAPESP – O rastreamento dos dados dentro desse mecanismo é simples, mesmo com toda a complexidade da interoperabilidade?
King – Um ponto importante é que, se você está interessado em determinadas informações pontuais, não precisa acessar toda a base de dados. Os arquivos Darwin Core permitem que, se estiver interessado em uma espécie de ave, você só encontre registros sobre aquela espécie quando insere determinado critério de busca sobre a espécie. Não é preciso cair em um conjunto de dados sobre todas as espécies de aves do Brasil, da Venezuela ou da Colômbia, por exemplo. E não é necessário vasculhar tudo para extrair a informação. O computador pode ser programado para buscar apenas aqueles dados específicos do conjunto total. Há bilhões e bilhões de conjuntos de dados e um humano não poderia filtrar isso.

Agência FAPESP – Como funciona o GBIF? Os 55 países enviam dados, ou todos têm acesso a uma forma de conectar seus bancos de dados?
King – O país assina um memorando padrão de entendimento, desenvolvido pelo conselho de administração do GBIF. Nesse memorando está declarado que deixarão os dados completamente acessíveis, que vão arcar com os custos de publicação e que vão configurá-los para acesso pela internet, entre outros pontos. Os dados não são enviados de qualquer maneira, eles devem ser reformatados para o código do Darwin Core e isso permite que fiquem disponíveis para que qualquer um possa encontrar a informação.

Agência FAPESP – Os dados não são armazenados de forma centralizada?
King – Não. É basicamente como um sistema de busca. No Google, você digita determinado critério para a informação e o buscador vai atrás dela. Não há uma base de dados central para o Google. É exatamente como funciona conosco. Os dados permanecem com os proprietários, com as instituições de pesquisa, e são simplesmente publicados nesse formato. Quando você coloca determinado critério na busca, ele procura aquele dado. Não há uma compilação central de conjuntos de dados, mas sim uma forma bem atualizada de fazer as coisas. Centralizar os dados em uma base central traz uma dúvida quanto à segurança. Além disso, essa base pode ficar desatualizada em relação ao banco de dados original. É muito mais fácil que os proprietários mantenham os dados. Isso também permite que eles decidam que dados vão manter públicos e quais permanecerão secretos.

Agência FAPESP – O Brasil não faz parte dos 55 países signatários, mas há instituições brasileiras participando?
King – O Brasil não está no GBIF, por não ter assinado o memorando. É uma decisão que tem que ser feita em nível federal, por algum tipo de departamento de governo, que vai designar uma instituição para ser o órgão de coordenação. Mas não fazer parte dos signatários não impede que os brasileiros possam acessar a informação sobre o país através do mecanismo. O acesso é realmente aberto. Por isso, só em 2010, tivemos 33 mil visitas de computadores baseados no Brasil. Há um conjunto de dados geograficamente referenciados no Brasil de cerca de 1,5 milhão de registros, que são mantidos por instituições de pesquisa fora do país. Há também certas instituições brasileiras que talvez estejam compartilhando dados – seja diretamente com o GBIF, seja por meio de outras instituições. Por exemplo, o Sistema de Informações Biogeográficas dos Oceanos [Obis, na sigla em inglês], que fornece muita informação publicada nos padrões do GBIF, disponibiliza muitos dados sobre o Brasil.

Agência FAPESP – Qual é a importância da adesão brasileira ao GBIF?
King – É muito importante, sem dúvida, devido à imensa biodiversidade no país e a qualidade da pesquisa feita por aqui. Essa importância se torna ainda maior com o Protocolo de Nagoya, que estabelece o Protocolo sobre o Acesso e Repartição dos Benefícios [ABS, na sigla em inglês] provenientes da exploração da biodiversidade. Será preciso estabelecer um regime legal em torno dessa questão e, para isso, é fundamental dispor de meios padronizados para gerenciar a informação. Porque, de outra maneira, haverá desafios legais em torno da má interpretação de informações. O conhecimento indígena, por exemplo, deverá ser tratado e referido da mesma maneira em todo o mundo. Vamos precisar interpretar esse conhecimento indígena em uma linguagem científica padronizada para discutir a propriedade intelectual desse conhecimento indígena. Tudo isso será muito complexo e o livre acesso à informação padronizada deverá ajudar bastante.

Nenhum comentário:

Postar um comentário