Un programme java qui se connecte et "Crawl" les pages de LinkedIn.com

En quelques jours, je suis devenu un utilisateur aguerri de LinkedIn.com. Je voulais pouvoir sortir la liste de mes contacts (En fait, j’ai d’autres ambitions mais, c’est une autre histoire…). Sur le site, il n’est possible que d’avoir 30 contacts par page ! Pour résoudre ce problème, j’ai créé un programme Java qui s’authentifie à LinkedIn.com. Il extrait ensuite de l’ensemble des pages des contacts, la liste des mails de TOUS les contacts enregistrés.

Si vous voulez le code source (pas très élégant mais qui fonctionne – Je n’y ai pas passé des heures non plus !), téléchargez le fichier HTTPBrowser.java. Ce programme fait plusieurs choses intéressantes :

  • Il se connecte en HTTP(s) à LinkedIn.com grâce à la page de connexion. Il effectue un POST avec les identifiants de connexion. Il conserve les cookies renvoyés par l’application.
  • La connexion HTTP(s) utilise un proxy pour sortir d’un réseau sécurisé (ou avec translation d’adresses).
  • Le programme parse les pages HTML et récupère (1) le nombre de contacts et (2) la liste des mails de ces contacts…

Pas très compliqué a priori… Cela dit, pour écrire ce programme, j’ai été bien aidé par Firefox et par l’extension LiveHTTPHeaders qui trace les appels HTTP et le contenu des entêtes.

GarK!

4 réflexions sur “Un programme java qui se connecte et "Crawl" les pages de LinkedIn.com”

Les commentaires sont fermés.