quarta-feira, 26 de março de 2008

Internet Archive guarda páginas digitais desde 1996

Lisboa (Lusa) - Ascende, neste momento, aos 85 mil milhões o número de páginas guardadas no sítio do Internet Archive Wayback Machine, que há doze anos arquiva páginas de milhões de espaços digitais, algumas delas portuguesas, para mostrar a evolução da rede.

Entrando em http://www.archive.org/web/web.php encontra-se uma caixa de pesquisa com um local para inserção do endereço cujo "passado se quer visitar" seguida de um botão intitulado "Take Me Back" ("Leva-me de Volta"), onde é necessário carregar para aceder a uma base de dados com as várias versões das páginas.

Além de possibilitar que os cibernautas revisitem versões antigas dos sítios, o Internet Archive permite que sejam estabelecidas ligações ("links") para páginas que já não estão disponíveis nas suas antigas localizações, servindo o próprio endereço para mostrar em que data é que as mesmas foram obtidas.

Uma morada digital como
http://web.archive.org/web/20000229123340/http://www.yahoo.com/ indica que a página foi guardada a 29 de Fevereiro de 2000, às 12 horas, 33 minutos e 40 segundos.

A apresentação das páginas ao público tem sempre um lapso temporal de seis meses - o que significa que, neste momento, só estão disponíveis para consulta ficheiros arquivados até meados de Setembro de 2007 - mas permite recuar até 1996, ano em que a Internet estava a chegar a Portugal.

No caso do sítio da agência Lusa (http://www.lusa.pt/), só no que respeita a primeiras páginas há 600 ficheiros arquivados (o ano de 2005 lidera, com 284 registos), sendo o mais antigo datado de 29 de Março de 1997, o que permite passar em revista uma década de destaques que a Lusa teve no seu sítio na Internet.

O mesmo é possível fazer com os espaços digitais de outros órgãos de comunicação, de diversas instituições e de particulares, sendo de salientar que até os blogues estão abrangidos por esta lógica arquivística.

Os 85 mil milhões de páginas guardadas ocupam 2,5 petabytes (o equivalente a 3,5 milhões de CD) e o arquivo cresce ao ritmo mensal de 20 terabytes (o espaço de cerca de 30 mil CD).

Em declarações à Agência Lusa a partir de São Francisco, na Califórnia, Brewster Kahle, fundador do Internet Archive, revelou ter-se dedicado "a construir uma grande biblioteca digital em 1980, quando estava na escola de engenharia".

"A ideia era tentar solucionar um problema: que contributo positivo para o futuro poderíamos dar usando a tecnologia", contou o responsável, que pensou então na possibilidade de "construir uma segunda versão da Biblioteca de Alexandria".

Kahle acredita que, "se o acesso universal a todo o conhecimento for algum dia alcançado, poderá ser um dos grandes feitos da Humanidade".

Outros dos objectivos passam por salvaguardar informações divulgadas na Internet que, de outra forma, poderiam perder-se ao longo do tempo e permitir que gerações futuras analisem como foi evoluindo a grande rede em termos de design, conteúdos, interactividade, etc.

"A maioria das sociedades preocupa-se com a preservação de artefactos culturais e património e, sem eles, a civilização não tem memória nem mecanismos para aprender com os sucessos e falhas" e, como "a nossa cultura produz cada vez mais artefactos digitais", a missão do Internet Archive é "ajudar a preservar esses artefactos e criar uma biblioteca online para investigadores, historiadores e académicos", lê-se no sítio.

"Milhões de pessoas que usam a Net nas suas pesquisas encaram a disponibilidade da informação digital como uma garantia mas o `tempo médio de vida` de uma página é de 44 a 75 dias, o que significa que ela pode ser retirada do ar ou sofrer alterações enquanto permanece online (como acontece em metade dos casos)", alertam os responsáveis do espaço, com vista a explicar a importância do seu arquivo, que só em 2007 angariou 2 mil milhões de páginas, graças ao apoio da norte-americana Mellon Foundation.

Para manter organizada esta gigantesca biblioteca virtual, o Internet Archive - que trabalha directamente com "12 bibliotecas nacionais e 30 bibliotecas de universidades" - tem colaboradores em países como "França, Itália, Austrália, Japão ou Inglaterra", afirmou Brewster Kahle à Lusa.

Segundo o fundador do espaço, os colaboradores são quem "direcciona os crawlers [robots que procedem a buscas na Internet] para obterem materiais importantes", embora qualquer utilizador possa contribuir com informação digital que considere ter interesse para as gerações futuras.

O programa utilizado para fazer a recolha é o Alexa Internet, cujos robots vão capturando cópias das páginas, excepto se estas tiverem uma indicação para que os robots as evitem ou estiverem protegidas por palavras-passe.

Caso alguém tenha um sítio na Net que ainda não figura no Internet Archive, pode visitar a página "Webmasters" do Alexa em
http://pages.alexa.com/help/webmasters/index.html#crawl_site e, após submeter o respectivo endereço, a página será visitada pelos robots no prazo máximo de oito semanas e passará a figurar no arquivo dentro de seis meses.

Assim como possibilita adições, o Internet Archive também permite que o responsável por um sítio solicite a retirada das suas páginas do arquivo.

O sítio disponibiliza ainda arquivos temáticos acerca das eleições de 2000 e de 2002 nos Estados Unidos e sobre assuntos muito mediáticos, como o tsunami no Sudeste Asiático em 2004, a acção do furacão Katrina, que afectou a região de Nova Orleães no final de Agosto de 2005, ou os atentados de 11 de Setembro de 2001.

Em relação ao maremoto que afectou países como a Indonésia, o Sri Lanka ou a Tailândia em Dezembro de 2004, o Internet Archive coligiu informação de mais de 1.500 sítios, tendo uma imagem destas páginas sido captada semanalmente desde a primeira semana de Janeiro de 2005.

No que se refere ao furacão Katrina, o Internet Archive e vários colaboradores individuais reuniram uma vasta lista de sítios para criar um registo histórico da devastação e do auxílio que se lhe seguiu, dando origem a uma colecção com 25 milhões de páginas únicas.

Existe também uma colecção intitulada "pioneiros da Net", em que estão agrupados sítios que tiveram algum papel de destaque nos primeiros tempos da rede, pois estes "dão um testemunho da diversidade e ingenuidade da Internet" nos seus primórdios, segundo os fundadores do arquivo.

A ideia original do Internet Archive Wayback Machine data de 1996 mas o espaço apenas ficou disponível ao público em 2001, quando o arquivo já tinha mais texto do que muitas grandes bibliotecas do mundo (incluindo a norte-americana Biblioteca do Congresso).

Fonte: RTP - Rádio e Televisão de Portugal

Nenhum comentário:

Postar um comentário