Les moteurs de recherche
Les moteurs de recherche
Les moteurs de recherche sont des outils indispensables pour naviguer sur le WEB. En effets, ils permettent de trouver des pages web inconnues. Parmi les plus connus, on peut citer Google, Yahoo, bing ou BaïDu.
Les moteurs de recherche suivent des programmes autonomes robots que l’on nomme aussi des Crawler ou des Spyder. Ces programmes parcourent les pages web à la recherche de mots clés importants, associés à l’URL de la page, et les stockent ensuite dans une base de données.
Par exemple, le programme a référencé tous les mots clés associés à l’URL lesbonsprofs.com, comme le mot enseignement, qui est enregistré dans la base de données.
Le programme suit alors l’ensemble des liens hypertextes présents sur la page html pour faire la même opération avec les pages web associées à la première page. Ils parcourent ainsi l’ensemble d’un site internet très rapidement, de l’ordre de quelques millisecondes, en stockant à chaque fois les mots clés dans la base de données.
La base de données est ensuite indexée. Cela signifie qu’elle est triée par un algorithme, qui lui attribue alors un score. Ce score permet de faire remonter le site dans le moteur de recherche. Ainsi, en tapant un mot clé sur un moteur de recherche, le premier site qui apparait en premier dans le résultat de la recherche est le site qui a la meilleure indexation. Le score de l’indexation dépend de plusieurs critères, le critère principale étant le nombre de pages renvoyant vers le site internet. Le score d’un site internet A augmente donc si d’autres sites citent dans leur page le site internet A. Ce référencement est appelé référencement naturel of Search Engine Optimisation (SEO). Il est à opposer au référencement payant proposé par certains moteurs de recherche, qui permet à des liens sponsorisés d’apparaitre plus haut dans le moteur de recherche moyennant une somme d’argent.
Sur le Web, il existe des milliards d’octets d’information sauvegardés. Cependant, seulement 4% de ces informations sont accessibles via les moteurs de recherche : c’est ce qu’on appelle le web de surface. 90% des données sont situées dans le Deep Web et correspondent à des données brutes de gouvernements, de grandes entreprises,… Elles ne sont pas exploitables directement par un ordinateur. La dernière partie des données correspond au Dark Web, qui ne représente que 6% des données totales. Son contenu est illégal ou dangereux.
Enfin, les moteurs de recherche enregistrent les données de navigation des utilisateurs dans des cookies, qui référencent l’ensemble des navigations, l’historique des recherches,… Ces données recueillies permettent aux moteurs de recherche de proposer des recherches personnalisées lors de la navigation ou sont vendues pour afficher de la publicité personnalisée. La gestion des données personnelles constitue un fondement économique des moteurs de recherche. Il existe cependant des moteurs de recherche plus indépendants comme Qwant qui n’enregistrent pas les données personnelles.