Originalement parue sur Quora, la plateforme de questions/réponses en ligne, cette question a trouvé sa réponse. Elle provient d’un internaute travaillant dans le domaine des analyses d’emails. Ce dernier a posté une description détaillée de ce que pourrait être une procédure d’analyse pour ce type d’enquête. Quora étant contributeur de Forbes.com, voici son récit.
Il y a beaucoup de désinformation, je vais donc essayer d’apporter le maximum de précisions et donner une réponse des plus précises possibles sur ce sujet:
Donald Trump, dans son discours du 7 novembre dernier, dit ceci: « “You can’t review 650,000 new emails in 8 days. You can’t do it, folks » (Vous ne pouvez pas inspecter 650 000 nouveaux mails en 8 jours. ce’est impossible, les gars.).
Là, Obama lui aurait répondu «Yes We Can». Et effectivement, désolé de vous contredire monsieur Trump, c’est tout à fait possible de consulter et vérifier 650 000 mails en 8 jours. J’ai moi-même fait deux fois plus en un quart de ce temps. Comment ai-je pu le faire ? Parce que c’est mon travail et que je suis payé pour ça! Il faut bien avoir conscience que l’on a pas besoin de vérifier un à un ces 650 000 emails, ce serait même complètement stupide de procéder ainsi. Cela serait surtout une énorme perte de temps et un réel gâchis d’argent.
Il faut procéder plutôt par élimination, vous devez supprimer tous les emails qui ne correspondent pas à ce que vous recherchez. Le FBI a probablement mis en place de nombreux process et étapes dans cette procédure, autant que d’outils d’analyses, pour réduire la quantité de messages électroniques à vérifier. Je ne suis, bien sûr, pas certain de tous les détails mais je peux tout de même vous donner un aperçu des moyens qui permettent d’analyser 650 000 emails en quelques jours.
La De-duplication
D’abord, il faut intégrer les 650 000 mails à analyser dans un outil tel que Nuix ou Clearwell. Ces derniers -notamment Nuix- vont extraire les meta-données des emails (From, To, CC, BCC, Sujet, Date d’envoi, etc…) ainsi que leur contenu textuel. Mais ce qui est encore plus important c’est qu’ils permettent ensuite d’identifier ceux qui sont dupliqués grâce à un procédé appelé la De-Duplication. En comparant les codes MD5 (ou MD5 Hash) de chaque email (il s’agit d’une clé de cryptage unique) le logiciel est capable de supprimer les duplicatas présents dans les 650 000 emails. On peut encore intensifier la réduction du périmètre de recherche en effectuant le même travail via la comparaison de la première série d’emails étudiée par le FBI (il y en avait 30 000) avec celle que l’on a obtenue via la De-Duplication de la seconde série (les 650 000).
Les filtres d’emails
Après la De-Duplication, il faut maintenant lancer une recherche dans ces mêmes logiciels afin de ne retenir que les emails qui contiennent la ou les adresse d’Hilary Clinton (dans les champs From, To, CC ou BCC). Cela permettra de supprimer à nouveau toutes les conversations auxquelles elle n’a pas activement participé puisque ces mails ne sont pas intéressants dans l’enquête en cours. Comme les emails collectés sont ceux d’Anthony Weiner, qui est au centre de l’enquête menée par le FBI, cela réduira le périmètre de recherche de plusieurs centaines de milliers d’emails.
De plus, je ne connais pas les détails de l’enquête menée par le FBI, mais il serait encore possible d’affiner les recherches en ne retenant par exemple que les emails envoyés ou reçus dans une période donnée ou par un ensemble de personnes spécifiques.
Les sujets d’emails
Après avoir filtré les emails, il est encore possible de réduire le nombre d’emails à vérifier manuellement en ne prenant en compte que les conversations les plus inclusives (celles qui regroupent les plus grandes quantités d’emails).
Par exemple, dans une discussion entre trois personnes, j’écris à deux amis: A et B. L’ami A me répond en premier, puis l’ami B répond à son tour. Dans ce cas, le FBI, au lieu de vérifier mon email puis celui de l’ami A et celui de l’ami B, aura tout intérêt à ne se focaliser que sur celui de l’ami B car son email contiendra le mien (le message auquel il a répondu) et celui de l’ami A (qui a répondu avant lui). Le logiciel Equivio (racheté par Microsoft l’année dernière), permet parfaitement de faire ce type de distinguo et de ne retenir que les conversations les plus riches.
Après toutes ces étapes, le FBI ne doit pas avoir plus de quelques centaines (ou quelques milliers maximum) d’emails à vérifier manuellement. Si les enquêteurs ont une idée précise de ce qu’ils cherchent dans ces messages, ils peuvent plus simplement réaliser une recherche par mots clés afin d’accélérer le processus d’examen final.
Il ne s’agit là que d’un exemple de procédure simplifiée qui peut être utilisée dans des situations de ce type. Il y a encore de nombreux autres outils performants qui peuvent être utilisés tels que Brainspace, Relativity ou EnCase.
Donc, contrairement aux affirmations de Donald Trump, il n’est pas inconcevable que le FBI soit capable de passer au peigne fin 650 000 emails en -seulement- deux semaines ce qui est, si on est bien organisé plus de temps que réellement nécessaire. Mais comme on dit ici: »inefficiency is the hallmark of most government organizations » (l’inefficacité est la marque de toutes les organisations gouvernementales)..
Vous avez aimé cet article ? Likez Forbes sur Facebook
Newsletter quotidienne Forbes
Recevez chaque matin l’essentiel de l’actualité business et entrepreneuriat.
Abonnez-vous au magazine papier
et découvrez chaque trimestre :
- Des dossiers et analyses exclusifs sur des stratégies d'entreprises
- Des témoignages et interviews de stars de l'entrepreneuriat
- Nos classements de femmes et hommes d'affaires
- Notre sélection lifestyle
- Et de nombreux autres contenus inédits