segunda-feira, 11 de agosto de 2008

Como o The Times colocou 200 anos de arquivo online


André Machado e Carlos Alberto Teixeira - O Globo



RIO - O site do jornal inglês "The Times" digitalizou 200 anos de seu acervo - de 1785, quando começou a circular, até 1985. O melhor de tudo é que todo o material está online, com exceção do período entre 1º de dezembro de 1978 e 12 de novembro de 1979, quando o jornal não foi publicado. É uma tremenda viagem no tempo, absolutamente viciante. Procure "Brazil" em 1822, por exemplo, e você poderá ler como os ingleses, tão intere$$ados em nosso país, acompanharam nosso processo de "independência" em relação a Portugal.

A verdade é que assunto não falta. O acervo digital (anote logo: http://archive.timesonline.co.uk/tol/archive/ ) já contém cerca de 20 milhões de artigos, num total de 7,8 milhões de documentos únicos e mais de 35 milhões de imagens. Algumas das edições cujos originais em papel estavam danificados, mas que já estão em processo de restauração, ainda serão digitalizadas e incorporadas ao conteúdo online.

Tecnologia usada permite que conteúdo seja copiado
O plano é expandir o projeto, digitalizando também as edições de 1985 a 2005 do "Times" e as edições de 1822 a 2000 do "The Sunday Times", outro periódico da mesma empresa, a News International - que faz parte da gigante de mídia News Corp.

Nesta fase inicial, a oferta online está sendo gratuita, mas é preciso registrar-se. Embora o processo de registro no "Times" seja um tanto chato (é preciso fornecer dados como endereço, telefone etc, esperar a confirmação no email e completar mais um questionário), vale a pena adentrar o arquivo.

As páginas são vistas em sua tipografia original, há possibilidade de zoom, e o leitor pode salvar os artigos que forem de seu interesse.

Para que tudo desse certo, cada página do "Times" foi escaneada, passando depois por um processo de reconhecimento ótico de caracteres, vulgo OCR (Optical Character Recognition), que interpreta cada letra na versão impressa convertendo-a para um caractere codificado, transformando a imagem original de uma página impressa em um arquivo-texto convencional.

As páginas, escaneadas na íntegra, foram divididas em artigos, fotos, anúncios, cartas para o editor, além de registros de nascimentos, casamentos e óbitos. A parte textual dos artigos é indexada, permitindo que o arquivo inteiro seja encontrado por data e por palavra-chave. O texto pode ser aproveitado pelo usuário selecionando-o com o mouse e usando o velho copiar/colar (Ctrl C/Ctrl V).

A finalização do projeto promete ser uma tarefa bastante difícil em termos de volume de dados, pois as edições digitalizadas dos períodos mais recentes do "Times" vão consumir muito mais espaço em disco do que as mais antigas. Só os últimos 20 anos representam um conteúdo maior do que o dos 200 anos entre 1785 e 1985.

Serviço pode passar a ser cobrado no futuro
Segundo Anne Spackman, editora-chefe do Times Online, ouvida pelo "The Guardian", ainda não se sabe se o serviço passará a ser cobrado. Ela e sua equipe têm observado grande número de acessos e consultas ao arquivo feitas por americanos, australianos e indianos, em geral genealogistas e pessoas em busca de familiares, ancestrais e locais onde estão suas raízes. Pesquisadores, historiadores e curiosos em geral certamente vão usar o acervo online como fonte.

Anne mantém segredo quanto ao custo do projeto e reconhece que haveria soluções mais baratas, mas afirma que a empresa queria o melhor resultado possível. O sistema utiliza um sofware para visualização de imagens, desenvolvido especialmente para a aplicação.
No processo de digitalização, os pontos críticos foram a qualidade e a consistência dos dados. Foram também criados scripts automatizados para verificação das imagens, utilizando a fina flor dos algoritmos de checagem. Apesar de inteiramente automatizados, esses scripts levaram quase um mês para checar todas as imagens.

Escanear documentos antigos exigiu muito cuidado
Alguns dos documentos originais são muito velhos, frágeis e valiosos. Foram necessários muito cuidado e experiência para escaneá-los e etiquetá-los, num processo que durou quase seis meses, com recursos técnicos baseados em Londres, Índia e Israel, para coordenar a digitalização e o reforço de qualidade final do processo de OCR.

No que tange ao armazenamento das imagens, os requisitos de espaço eram tão imensos que os ambientes de testes e implementação se tornaram altamente complexos. Mas o desafio foi vencido pela divisão de TI da News International. O site alocou servidores de imagens inteiramente dedicados à publicação online das fotos e bitmaps do arquivo. Além disso, foram usados os mais modernos algoritmos de compressão de imagens. Coisa finíssima.

Boa parte do arquivo online se baseia em registro e restrições de acesso, de modo a garantir os direitos de propriedade intelectual. Foi desenvolvida internamente toda a tecnologia de personalização que permitiu acesso controlado ao acervo. Afinal, cada documento da base de dados exige autenticação individual para determinar se um usuário pode ou não ter acesso a determinado conteúdo.

Para professor internet é ferramenta fundamental de pesquisa
Para Marcello Rangel, professor de História e coordenador setorial do Instituto Gay-Lussac, a iniciativa do britânico "Times" é fantástica. Ela mostra como a internet se tornou uma ferramenta de pesquisa fundamental para cientistas e historiadores.
" A historiografia avançou muito, e a academia já aceita tais fontes digitais "
- Já não é mais necessária a atitude positivista de ter que segurar nas mãos o original do documento histórico - diz Marcello. - A historiografia (a maneira como se compreende e escreve a História) avançou muito, e a academia já aceita tais fontes digitais.

Naturalmente, pesquisar em jornais é uma parte do trabalho. O ofício do historiador é verificar a alteridade dos fatos (por exemplo, como o português vê o índio e como o índio vê o português), estudar diversos tipos de documentos e assim fazer a reconstituição da História.

Marcello cita outros arquivos presentes na internet, que a gente aqui consultou e ficou absolutamente surpreso. São ótimas fontes, como o Rare Maps ( raremaps.com ), o sistema de bibliotecas da Unicamp ( http://www.uni camp.br/bc/ ), a Biblioteca Virtual do Estudante Brasileiro ( bibvirt.futuro.usp.br/textos ), o Projeto Gutenberg ( gutenberg.org ) e o Archive Org, de páginas web ( .archive.org , que guardaria inclusive versões antigas de sites - 85 bilhões deles).

Entre os jornais, o "New York Times" tem uma seção livre de busca entre 1851 e 1890 e entre 1981 e 1987 (depois, é paga), em tinyurl.com/avxq6 . O "Los Angeles Times" parte de 1881 (em tinyurl.com/alvaa ). Já o francês "Le Figaro" tem as edições de 1826 a 1942 listadas em tinyurl.com/6kek82 e se dá ao luxo de ter um arquivo separado para o seu suplemento literário, em http://tinyurl.com/6sxetp , entre 1876 e 1929.

Embora a iniciativa do "The Times" seja a mais abrangente de um jornalão de renome internacional, arquivos ainda mais antigos estão disponíveis online. É o caso do jornal local "Hartford Courant", do estado americano de Connecticut, que regride até o longínquo ano de 1764 ( tinyurl.com/pmknk ). Não tem nada de muito interessante para o pesquisador brasileiro, mas não deixa de ser um prato cheio para os curiosos de plantão (categoria de que fazemos parte).

No caso do grandioso trabalho de digitalização e oferta online do acervo do "Times", uma das mais difíceis decisões estratégicas do projeto foi quanto ao modelo de negócio, mais especificamente na escolha de como o serviço seria cobrado - ou, mesmo, se não seria - já desde o início da operação. Uma opção seria um serviço grátis para o usuário e patrocinado por anúncios, a outra seria funcionar por assinatura paga.

Essa questão foi fundamental na arquitetura do projeto e na implementação da solução, já que o modelo de preço afeta a popularidade do site. E isso tem decisivo impacto nas exigências tecnológicas e arquiteturais do sistema.

Esse debate também levou em conta o valor dos mecanismos de busca, os métodos de proteção da propriedade intelectual, o potencial de captar e remunerar anunciantes e patrocinadores, a possibilidade de capturar mais ou menos dados dos internautas visitantes e, por fim, o próprio preço da assinatura, caso fosse essa a opção escolhida.

Digitalização de arquivos já é feita no Brasil
O acervo de 200 anos de edições antigas do Times já tinha sido digitalizado em 2003 pela firma Thomson Gale, mas esse conteúdo só era antes disponível para bibliotecas públicas e universitárias na Inglaterra. Já o projeto online foi conduzido em parceria com as empresas Sapient, FAST, Macrovision, Thomson, Olive, e com a equipe de tecnologia da News International.

Aqui no Brasil, há dez anos a DocPro ( docpro.com.br ) vem se dedicando à digitalização de acervos de documentos em papel. A firma desenvolveu uma tecnologia própria e escreveu do zero os softwares que utiliza. Procurado pela Revista Digital para comentar o projeto do Times Archive, José Lavaquial, diretor da DocPro, declarou-se admirado com os resultados, mas tem lá suas ressalvas.

- É um belo projeto, impressionante. Mas há algumas falhas de precisão nos resultados de pesquisa. O processo de reconhecimento dos caracteres é um pouco engessado, por depender da abordagem convencional da etapa de OCR.

A filosofia e os algoritmos adotados no projeto inglês diferem dos usados pela DocPro, que gera um banco de dados muito menor, incluindo a coordenada (x,y) de cada palavra. Isso permite indexação mais exata, consulta mais rápida e a "iluminação" precisa das palavras encontradas na própria imagem do texto original. Essa iluminação consiste em destacar no texto original com uma elipse colorida, cada palavra-chave que serviu como argumento de busca.

Fonte: O Globo

"O aplauso é a espora dos espíritos nobres e o fim dos fracos"
Charles Colton

Nenhum comentário:

Postar um comentário