terça-feira, 21 de agosto de 2007
Mecanismo de busca de código livre encontra dados em tabelas
O algoritmo de buscas do Google revolucionou a Internet. Chamado de PageRank, esse programa originalmente desenvolvido na Universidade de Stanford, Estados Unidos, coloca ao alcance dos usuários uma quantidade de dados muito maior do que qualquer ser humano é capaz de "digerir".
Tabelas escondidas
Mas o PageRank não é perfeito. E uma enormidade de dados ainda ficam "escondidos" pela Internet. Ou, se não estão exatamente escondidos, eles não aparecem nos resultados das buscas com a relevância que possuem.
Este é o caso das tabelas. Esta disposição bidimensional de dados está presente em nada menos do que 70% de todos os artigos científicos publicados. E não é à toa: as tabelas permitem a comparação e a visualização rápida de dados. Hoje, porém, o título de uma tabela não possui um peso maior do que os comentários em um blog quando os crawlers dos mecanismos de busca varrem os sites.
Mecanismo de busca de tabelas
Isso agora poderá mudar, graças ao trabalho de um grupo de pesquisadores da Universidade de Pensilvânia, Estados Unidos. Eles desenvolveram um novo algoritmo de busca que consegue não apenas localizar e extrair tabelas do interior de uma série de tipos de documentos - como PDF, HTML e Word - como também é capaz de indexar e classificar os resultados utilizando dados como o título da tabela, as referências de texto e a data da publicação.
A equipe do Dr. Prasenjit Mitra não é boa apenas na construção de algoritmos: eles logo perceberam o potencial de seu novo mecanismo de buscas de tabelas e usaram seu tino comercial para batizá-lo de ... TableRank, numa clara alusão ao super bem sucedido mecanismo de buscas do Google.
Colunas de dados
O algoritmo TableRank já foi incorporado em um programa prático de buscas, o TableSeer. "O TableSeer torna fácil para cientistas e acadêmicos descobrir e acessar importantes fontes de informação apresentados na forma de tabelas e, tanto quanto sabemos, ele é o primeiro mecanismo de buscas para tabelas," diz Mitra.
O programa permite a execução de buscas por colunas, facilitando a localização de uma determinada coluna em uma tabela - como, por exemplo, os preços do petróleo, os valores calóricos de determinadas substâncias ou uma tabela de códigos genéticos.
Código livre
O desenvolvimento do TableSeer é parte de um projeto de código livre que está desenvolvendo uma infraestrutura de pesquisas na área de química. O programa já pode ser avaliado online (veja link no quadro Para navegar), mas o código-fonte somente será disponibilizado ao final do projeto.
Bibliografia:TableSeer: Automatic Table Metadata Extraction and Searching in Digital
LibrariesYing Liu, Kun Bai, Prasenjit Mitra, C. Lee GilesACM IEEE Joint Conference on Digital Libraries2007http://chemxseer.ist.psu.edu/about/digital_library/Liu-JCDL2007.pdf
Para navegar
TableSeerThe Pennsylvania State University
Fonte: Inovação Tecnológica
Assinar:
Postar comentários (Atom)
Nenhum comentário:
Postar um comentário