THOMSON THA100 - Smart Box Android TV

Berrylook WW

03/10/2013

Comment fonctionnent les moteurs de recherche

Les moteurs de recherche sont des sites internet particuliers dont la fonction première est d’aider à trouver au bon endroit sur le web, les bonnes informations dont nous avons besoin et que nous recherchons.

Comment font-ils ?



Tous les moteurs de recherche ont leurs propres modes de fonctionnement mais ils procèdent tous selon trois étapes de base :

1. Ils cherchent sur les sites Internet (Communauté Virtuelle) en se basant sur des mots importants.

2. Ils conservent un index des mots qu’ils trouvent, et de l’endroit où ils ont trouvés ces mots clefs.

3. Ils donnent la possibilité aux utilisateurs de chercher des mots (ou des combinaisons), consultent alors leur index et proposent une liste de sites web correspondant.

Les premiers moteurs de recherche avaient des index de quelques centaines de milliers de pages et documents, et comptaient entre un et deux milliers de requêtes par jour. Aujourd’hui, les meilleurs indexent jusqu'à plusieurs centaines de millions de pages et répondent à des dizaines de millions de requêtes quotidiennes.

Les araignées de recherche



Avant qu’un moteur de recherche puisse vous indiquer où se trouve l’information recherchée, vous avez compris que celle-ci doit donc être trouvée et être indexée.

Pour recenser la masse colossale de données contenue sur les centaines de millions de pages web qui existent, un moteur de recherche utilise des logiciels robots, appelées « spiders » ou araignées, pour construire des listes de mots, les fameux index.

Quand ces araignées construisent leurs listes, on parle de « Web Crawling ». Il s’agit en fait simplement de collecte d'informations sur le web.

Afin d'établir et de maintenir une liste de mots utiles, les araignées d’un moteur de recherche doivent scruter un grand nombre de pages. Comment une araignée débute t’elle son parcours de la toile ?

Les points de départ habituels sont des listes de serveurs fortement utilisés et les pages les plus populaires. Elle va commencer avec un site très visité, indexant les mots de ses pages, et suivre ensuite chaque lien
du site. De cette façon, le système tisse rapidement sa toile en se répandant à travers les parties du Web les plus largement utilisées.

Stockage des données dans des Index


Une fois que les araignées ont fini de collecter les informations des pages web, le moteur de recherche doit stocker ces informations de manière à les rendre utiles et exploitables. Il y a deux composantes importantes à gérer :

* Les informations elles-mêmes à stocker.
* La méthode utilisée pour les indexer.

Dans le plus simple des cas, un moteur de recherche pourrait se contenter de sauver juste le mot et l’URL où il a été trouvé. En réalité, ceci limiterait leur utilisation, car il n’y aurait aucune façon de savoir si le mot utilisé sur une page est significatif ou non, ni s’il est utilisé une seule fois ou à plusieurs reprises, ni encore si la page contient des liens vers d’autres pages contenants ce mot.

En d’autres termes, il n’y aurait alors aucune possibilité de proposer les fameuses listes de résultats que nous connaissons tous et qui tentent de présenter les pages les plus pertinentes et utiles en haut de la liste.

Pour rendre les résultats plus utiles, la plupart des moteurs de recherche sauvegardent donc bien plus que le mot et l’URL. Par exemple, ils peuvent stocker le nombre d’apparition sur une page ou assigner un poids à chaque entrée, dont la valeur varie en fonction de l’ordre d’apparence à partir du haut de la page du document, en fonction des sous-titres, des liens, des méta-tags, du titre lui-même
de la page….

Chaque moteur de recherche utilise sa propre formule pour attribuer un poids aux mots de son index. C’est pourquoi une même recherche sur différents moteurs de recherche produira des listes de résultats différentes.

Un index à pour but unique de permettre de trouver aussi vite que possible l’information. Il y a assez peu de manière de constituer un index, mais l’une des techniques les plus efficaces est de construire une table de hachage. En hachage, une formule est utilisée pour associer une valeur numérique à chaque mot.
La formule est conçue pour répartir les entrées dans un nombre prédéterminé de divisions. Cette répartition numérique diverge de la répartition alphabétique habituelle des mots, et c’est là la clef de l’efficacité d’une table de hachage.

Et la SEO dans tout ça ?


Le terme SEO provient de l’expression anglaise « Search Engine Optimisation ». « Search Engine » signifie en français moteur de recherche.

La SEO peut être considérée comme une discipline, tout au moins un ensemble de techniques, dont la fonction première est d’optimiser un site en vue d’améliorer sa position dans les pages de résultats proposées par les moteurs de recherche. Car pour être visible, votre site doit impérativement se positionner dans les toutes premières pages de résultats.

Nous allons voir que, même si il existe des principes assez simples, la SEO demande beaucoup de travail et de méthode et qu’il est donc assez fréquent de sous-traiter à des entreprises spécialisées. Si votre budget le permet et votre projet Web le nécessite bien entendu….

Dans ce cas, vous n’êtes pas obligé d’entrer dans les détails de cette discipline mais il vous faut quand même un bagage minimum afin de pouvoir négocier dans de bonnes conditions et obtenir le retour sur investissement que vous attendez.


2 commentaires:

  1. Je trouve que ce lien aussi est très intéressant!

    http://www.outil-webmaster.fr/referencement-gu1.html

    je vous remercie pour votre article, très intéressant!

    RépondreSupprimer
  2. Contactez-moi sur : takihanane@live.fr (o)

    Vous allez recevoir une stratégie testée et éprouvée qui va vous permettre de propulser le trafic de votre site Internet à un niveau encore jamais vu. La formation comporte 6 modules sous forme de livret numérique accessible immédiatement en téléchargement.

    RépondreSupprimer

Pack Business Intelligence

Avez-vous rêvé d'avoir votre propre affaire sur le web qui vous génère des revenus exceptionnels 24h/24, 7 jours sur 7...Sans Site Ni...