Para classificar os sites, os mecanismos de busca levam em consideração os seguintes aspectos:
- Tempo de registro do domínio (Idade do domínio)
- Idade do conteúdo
- Freqüência do conteúdo: regularidade com a qual novo conteúdo é adicionado
- Tamanho do texto: número de palavras acima de 200-250 (não afetava o Google em 2005
- Idade do link e reputação do site que o aponta
- Características padrão da página
- Pontuação negativa sobre as características da página (por exemplo, redução para sítios web com utilização extensiva de meta-tags de palavra chave, indicativos de terem sido artificialmente otimizadas)
- Originalidade do conteúdo
- Termos relevantes utilizados no conteúdo (os termos que os buscadores associam como sendo relacionados ao tema principal da página)
- Google Pagerank (usado apenas no algoritmo do Google)
- Quantidade de links externos
- O texto âncora contido nos links externos
- Citações e fontes de pesquisa (indica que o conteúdo é de qualidade para pesquisa)
- Termos relacionados na base de dados do mecanismo de busca (financiar/financiamento)
- Pontuação negativa para links de chegada (provavelmente advindos de páginas de baixo valor, links de chegada recíprocos, etc.)
- Ritmo de aquisição dos links de chegada: muitos ou incremento muito rápido pode indicar atividade de comercial de compra de links
- Texto próximos aos links que apontam para fora e os links de chegada. Um link acompanhado das palavras "links patrocinados" pode ser ignorado
- Uso da tag "rel=nofollow" para esculpir o ranking interno do website
- Profundidade do documento no site
- Métricas coletadas de outras fontes, tais como monitoramento da frequência com a qual usuários retornam clicando em voltar quando as SERPs as enviam para uma página em particular (Bouncerate)
- Métricas coletadas de fontes como Google Toolbar, Google AdWords/Adsense, etc.
- Métricas coletadas de compartilhamento de dados com terceiros (como provedores de dados estatísticos de programas utilizados para monitorar tráfego de sítios (sites))
- Ritmo de remoção dos links que apontam para o site
- Uso de sub-domínios, uso de palavras-chave em sub-domínios e volume de conteúdo nos sub-domínios, com pontuação negativa para esta atividade
- Conexões semânticas dos documentos servidos
- IP do serviço de hospedagem e o número/qualidade dos demais sites hospedados lá
- Uso de redirecionamentos 301 ao invés de redirecionamentos 302 (temporário)
- Mostrar um cabeçalho de erro 404 em vez de 200 para páginas que não existem
- Uso adequado do arquivo robots.txt
- Links "quebrados"
- Conteúdo inseguro ou ilegal
- Qualidade da codificação HTML, presença de erros no código
- Taxa real de cliques observados pelo mecanismo de busca para as listas exibidas na SERPs
- Classificação de importância feita por humanos nas páginas com acessos mais frequentes - ODP
Mais em Wikipedia