segunda-feira, 1 de outubro de 2012
Internet Archive já soma 150 bilhões de sites
Ferramenta que "volta no tempo" e mostra versões de páginas como elas eram é o serviço mais popular do portal
Arquivo digital on-line, criado em 1996, reúne também mais de 6 milhões de documentos de texto, áudio e vídeo
Folha de S. Paulo
Lianne Milton - 21.fev.2012/"The New York Times"
Brewster Kahle, fundador do Internet Archive, manuseia livro no arquivo físico da instituição
O projeto mais ambicioso e que atrai mais visitantes ao Internet Archive é o Wayback Machine, espécie de radiografia do passado da web. Por meio de robôs, o site varre grande parte das páginas on-line e guarda cópias -24 horas por dia, desde 1996.
Hoje, é possível acessar pouco mais de 150 bilhões de sites antigos. O intuito, diz o fundador Brewster Kahle, é preservar a memória. "A internet é um registro de nosso tempo." Páginas que impedem a varrição por robôs, como o Facebook, não aparecem na ferramenta.
O Wayback Machine é uma das divisões do Internet Archive, que separa seus sistemas de busca por tipo de arquivo. Há textos, vídeos, música ao vivo e, com o TV News, programas jornalísticos da televisão. No total, são 6 milhões de documentos.
Inspirado na biblioteca visual da Universidade Vanderbilt, em Nashville (EUA), o TV News é pioneiro ao disponibilizar jornalísticos de maneira organizada e on-line.
"A Vanderbilt é a avó dos arquivos de TV nos Estados Unidos", diz Kahle. No entanto, o acervo da universidade, gravado desde 1968, possui apenas um sumário na rede. Para assistir ao material é preciso pagar uma taxa para recebê-lo em DVD, pelo correio.
A experiência foi importante para definir legislação em relação a direitos autorais. Em 1972, a rede de TV CBS processou a Vanderbilt e foi derrotada. "Desde então, podemos disponibilizar os vídeos da TV, desde que o acesso seja público", explica John Lynch, diretor da biblioteca.
ANTIGUIDADES
No caso dos livros, estão à disposição somente obras em domínio público segundo as leis americanas -ou seja, volumes com mais de 70 anos. Por meio de convênios com bibliotecas públicas e particulares, o Internet Archive financia a digitalização em troca de acesso às obras.
Desde 2010, outra iniciativa, a DPLA (Biblioteca Digital Pública da América, em inglês), negocia com donos de direitos autorais uma forma de acesso gratuito e on-line a ao menos parte de todas as obras lançadas nos EUA.
"A ideia final é realizar uma aliança de associações privadas e fazer uma biblioteca disponível para todas as pessoas", explicou o historiador Robert Darnton, diretor da biblioteca de Harvard e principal mentor do projeto, em visita à Folha em maio.
O processo de escaneamento de livros é custoso. Primeiro, é analisado o estado de conservação da obra. Em seguida, deve-se escolher o formato do arquivo para, então, começar a digitalização.
Além da complexidade técnica, o custo é o principal empecilho para o aumento do número de bibliotecas digitais no Brasil. "À medida que surgirem softwares gratuitos [de digitalização], a tendência é que haja mais bibliotecas", diz Fernando Modesto, professor do Departamento de Biblioteconomia e Documentação da USP.
Na própria instituição há um centro de escaneamento de obras antigas. A biblioteca Brasiliana surgiu a partir do acervo pessoal do empresário e bibliófilo José Mindlin, morto em 2010. Por meio do site brasiliana.usp.br, já é possível acessar e baixar parte dos livros.
Alexandre Aragão
Prateleiras Digitais
Os tipos de arquivos disponíveis no Internet Archive (archive.org)
LIVROS ANTIGOS
Os 3,6 milhões de arquivos são fonte rica para pesquisas. Há um bom número de autores americanos. É o caso de Francis Scott Fitzgerald, cuja obra está quase completa para download -como o romance "Este Lado do Paraíso" (bit.ly/fscottfitzgerald). Há também obras-primas como "Tristes Trópicos" (bit.ly/tropicos), do antropólogo francês Claude Lévi-Strauss, relato de uma viagem pelas tribos indígenas do Centro-Oeste brasileiro
VÍDEOS RAROS
São 989 mil registros em vídeo. Há desde comerciais antigos, como os do cigarro Chester King -dos intervalos da série "Além da Imaginação"-, até um demonstrativo da Apple, de 1985, sobre o computador Lisa (bit.ly/apple-lisa), parte do acervo da Universidade Stanford
WAYBACK MACHINE
Composto por imagens capturadas por robôs que monitoram e "fotografam" todas as páginas da web, tem pouco mais de 150 bilhões de registros. O site é, como o nome diz, uma viagem no tempo: reproduz, por exemplo, a homepage do YouTube em abril de 2005, dois meses após seu lançamento
NOTÍCIAS DA TV AMERICANA
Guarda todos os programas jornalísticos das principais emissoras de TV dos EUA dos últimos três anos. A principal vantagem é a busca por palavras: o TVNews permite procurar tanto em determinado período de tempo quanto por palavras ou redes específicas. Assim, dá para assistir a todos os programas que anunciaram a morte de Osama Bin Laden (bit.ly/morte-osama)
DOCUMENTOS HISTÓRICOS
Há documentos variados, como censos da população brasileira do início do século passado e a carta de Pedro Álvares Cabral ao rei de Portugal
MÚSICA AO VIVO
O catálogo possui raridades, como um show do Grateful Dead no Madison Square Garden, em 1979 (bit.ly/grateful1979)
Arquivos digitais esbarram em "muralhas" e direitos autorais
Tudo o que vai parar na web é efêmero, e o internet archive não soluciona o problema
Ronaldo Lemos
Colunista da Folha
Uma das promessas não cumpridas da internet é de que haveria uma "revolução" da memória. Os conteúdos digitais ficariam imunes às intempéries do mundo físico, permitindo preservar para sempre as criações humanas, traduzidas em simples bits e bytes. Não funcionou.
Tudo o que vai parar no mundo digital é efêmero. A tecnologia renova-se, e os formatos ficam obsoletos. Universos inteiros de dados desaparecem ou ficam inacessíveis o tempo todo. Foi o que ocorreu com o Geocities, precursor das redes sociais. Em 1999, era o terceiro site mais acessado do planeta. Em 2009, deixou de existir (há um pouco dele no Internet Archive, mas muito se perdeu).
No Brasil, Caetano Veloso queixou-se no jornal "O Globo" sobre o tema. Seu blog Obra e Progresso, criado no processo de gravação do álbum "Zii e Zie", sumiu também. Para alívio da situação (e dos fãs), parcelas do site estão no Internet Archive.
Só que o Internet Archive não resolve toda a questão. Grande parte dos conteúdos na rede hoje está atrás de "muralhas" fechadas, como o Facebook e outras redes sociais. O Internet Archive não entra ali. Só arquiva o que está aberto na rede.
Outro problema são os direitos autorais. Pela lei brasileira, preservar qualquer conteúdo requer autorização do autor e titulares.
Pela lei americana, essa autorização não é necessária. O Internet Archive pode armazenar tudo, desde que retire conteúdos específicos em caso de reclamações.
Há no Ministério da Cultura uma proposta para reformar nossa lei, autorizando o arquivamento. Até a sua aprovação, a chance de surgir um arquivo abrangente da rede no Brasil é zero.
Isso traz mais preocupações. Por exemplo, o Orkut. Apesar de muita gente torcer o nariz para o site hoje, ele é o mais rico e detalhado documento do período de 2004 a 2011 no Brasil. Registrou fenômenos como a ascensão da classe C, transformações no uso do português, além de inúmeros dramas pessoais.
Há muitos temas dos últimos anos visíveis pelo Orkut, preservados em registro microscópico. Mas basta uma decisão do Google para tudo ficar inacessível.
A Biblioteca do Congresso dos EUA já preserva a memória digital. Nossa Biblioteca Nacional deveria fazer o mesmo, a começar pelo Orkut.
A conclusão é simples. Se há algo importante para você armazenado na rede, vá lá e faça um back-up no seu computador. E não deixe para amanhã.
Assinar:
Postar comentários (Atom)



Nenhum comentário:
Postar um comentário