La question a été posée de savoir si les algorithmes entraînés étaient eux-mêmes des données à caractère personnel lorsqu'ils étaient ensuite mis en oeuvre. Cette question nous est souvent soumise par des start-up qui travaillent dans le secteur. Pour faire simple, il faut savoir que l'algorithme apprenant va catégoriser, détecter de grandes tendances, mais aussi des outsiders, des cas atypiques qui vont aussi générer des catégories. À travers ces catégories, reposant sur une ou deux personnes, se pose le risque de réidentification de ces personnes. Un travail préalable doit donc être mené, consistant à nettoyer les arbres de décision, afin d'en retirer les cas trop atypiques susceptibles de donner lieu à une réidentification.