terça-feira, 29 de maio de 2012

Como funciona a engine de busca do Google?

O site de busca Google desde os seus primórdios tem se mostrado uma ferramenta muito útil para localizar conteúdo na web de forma relevante, ágil e interativa. Mas aposto que poucas pessoas que utilizam o Google, mesmo que esporadicamente, sabem do esforço em termos de inteligência de programação e capacidade de infra-estrutura que é desprendido por esta empresa para que nós possamos obter nossas pesquisas em um piscar de olhos com um nível de acerto de dar inveja aos seus concorrentes diretos Bing e Yahoo!.
Recentemente foi publicado no You Tube um vídeo muito interessante sobre como funciona a engine, ou mecânica, de busca do Google. Este vídeo mostra Matt Cutts, chefe da equipe de web spam da companhia, falando de uma forma resumida como funciona todo o poderoso processo de busca, passando pelos tópicos de Crawling, Indexing e PageRank, descritos abaixo:
  • Crawling: é a captura do documentos ou páginas ativos na web, onde antigamente este processo demorava várias semanas devido ao processo ser realizado em cascata. O Google realizava o Crawling nas páginas dos sites mais relevantes do mundo como CNN, New York Times, entre outros primeiro. Posteriormente fazia o Crawling de outros sites menos relevantes, assim disponibilizando-os para a ferramenta de busca. Porém em meados de 2003 foi desenvolvido uma nova técnica para realizar o processo de Crawling batizado como Update Fritz. Este processo fragmenta a web em vários pequenos pedaços relevantes e permite que o Google faça o processo de Crawling com mais agilidade, disponibilizando atualização das páginas mais relevantes com peridiocidade diária. As outras páginas menos relevantes sofrem atualizações com menor frequência e são amontoadas em um fragmento denominado Supplemental Results, ou resultados suplementares. Aposto que é neste que fragmento que ele faz a busca quando clicamos no botão estou com sorte. ;-)
  • Indexing: é o processo de organização e busca do Crawling dado por uma palavra-chave fornecida pelo usuário, em caso de palavras-chave compostas, como no exemplo do vídeo "Kate Perry" o algorítmo quebra por palavras para a busca pelos documentos do Crawling e faz a comparação do índice dos documentos para verificar proximidade e paridade entre a composição das palavras-chave e assim obter o resultado mais relevante.
  • PageRank: é a classificação dada as páginas localizadas no Crawling, esta classificação é medida a partir do número de páginas que criam links para palavra-chave da busca do usuário e o grau de importância deles entre outras 200 Ranking Signals ou critérios de classificação, que são secretamente aplicadas, assim como os ingredientes da Coca-Cola.
Sabendo de tudo isso e aproveitando a deixa da analogia anterior eu poderia concluir que o Google foi a invenção mais relevante desde a invenção da Coca-Cola, com a diferença que o Google começou como um site de busca e vem aprimorando suas ferramentas constantemente, enquanto a Coca-Cola foi xarope, virou refrigerante e só.

O vídeo:


Fontes:
Google Webmaster Central
http://www.youtube.com/user/GoogleWebmasterHelp?feature=watch

Maurício Moraes - Como funciona o google em 8 minutos
http://info.abril.com.br/noticias/blogs/nalinhadogoogle/busca/saiba-como-o-google-funciona-em-8-minutos/

Nenhum comentário:

Postar um comentário