Les termes “to parse” et “parsing” sont utilisés fréquemment dans le monde des développeurs informatique et fait référence aux techniques d’analyse d’un format particulier de document ou flux de données pour en extraire ce qui vous intéresse. Par exemple, vous parsez, soit en écrivant du code, soit en utilisant un logiciel qui le fait en arrière-plan pour vous, des documents HTML, Word, PDF, ou des flux RSS.

Parseur est ce type de nouveau logiciel, disponible en tant qu’application hébergée, pour extraire le contenu de vos mails en mettant en oeuvre la technologie de parsing pour vous.

Voici un tour rapide pour vous introduire au concept et à l’outil.

Une fois que vous avez créé votre compte sur le site Parseur.com, vous avez à votre disposition une boite pour la réception et le traitement des mails. Vous pouvez y recevoir des mails qui deviennent dans l’application des documents et vous pouvez créer des “templates” (dans le jargon de Parseur) liés aux documents et qui aident à extraire les données spécifiques qui vous intéressent.

Supposons que je veux extraire des infos utiles dans le mail de notification que m’envoie Meetup.com pour m’informer de nouveaux meetups.

Je prend un de ces mails et je l’envoie à l’adresse de la boîte Parseur (adresse que vous trouvez dans le dashboard). Quelques secondes plus tard, je verrai apparaitre le mail dans cette boîte, sous la forme du document au sens de Parseur.

Si Parseur sait reconnaitre le mail et l’associer à un template existant et adapté, il déclenchera automatiquement l’extraction. Sinon, ce qui est le cas la première fois qu’on traite un mail contenant du texte formaté de manière spécifique, l’outil nous indique de créer un template pour poursuivre.

Paramétrer un template pour l’extraction

Dans l’interface de création du template, on peut visualiser sur la gauche le contenu du mail et sur la droite les options pour ajouter et paramétrer les champs dont le contenu sera extrait.

La méthode consiste à sélectionner avec la souris une zone correspondant à une pièce d’information (le texte) que l’on veut extraire : On ajoute un champ correspondant, de type “texte” ou autre type adapté, selon le besoin, et l’extration pourra traiter cette information ou ce bout de texte. Il y a moyen d’ajuster le paramétrage du champ. Et il y a des types de champ pour des cas de formats complexes tels que les tables HTML.

On fait cette action autant de fois que nécessaire, pour les champs utiles du message concernant le meetup : le titre, le texte principal, le nom de l’organisateur du meetup, etc.

Lancer l’extraction

Une fois que le template est prêt, un bouton permet de lancer l’extraction immédiatement.

En quelques secondes c’est fait, et on voit apparaître les données extraites à côté du contenu du mail, dans la vue de présentation du document dans le panneau à droite.

Vous recommencez l’opération avec les différents documents que vous voulez exploiter de cette manière.