Like what you see so far?

Sign up for our newsletter and get great content delivered straight to your inbox.

Posted Janvier 8, 2019 in Sécurité

Le problème des données dans l’apprentissage machine

Le terme « apprentissage machine » évoque des visions de réseaux complexes de machines autonomes s’abreuvant de données obscures. Cette perception peut nous amener à penser que les difficultés du monde de l’apprentissage automatique résident dans la compréhension de processus mathématiques intenses, dans la maîtrise d’applications émergentes, et dans la complexité à comprendre les paradigmes de la programmation. Même si tout cela est vrai, si l’on veut réellement maîtriser la science de l’apprentissage machine, des problèmes plus « mondains » se révèlent être habituellement les plus grands obstacles, et là où de nombreuses personnes restent bloquées. Les données et les essais représentent deux de ces problèmes. Dans ce blogue, je vais me concentrer principalement sur les données, mais je vais également brièvement parler de l’importance des essais.

Ça ne sera pas une surprise pour de nombreux professionnels de l’entreposage de données et de la veille stratégique, mais j’ai été confronté à ce problème de si nombreuses fois que certaines personnes doivent sans doute encore l’ignorer. Que vous achetiez des applications commerciales ou que vous mettiez en place votre propre service interne d’apprentissage machine, le problème des données est le même. Pour tout le monde, les données nécessaires pour ces applications d’apprentissage machine sont stockées dans des systèmes d’enregistrement ou de fidélisation.

Donc, vous avez les données. Quel pourrait être le problème?

Tout d’abord, la sécurité, les risques, la conformité

Globalement, les problèmes se retrouvent généralement du côté de la conformité, des risques et de la sécurité. Ils peuvent tous être résolus par des contrôles appropriés. Toutefois, dans les entreprises, les processus de contrôles nécessaires pour recevoir les approbations d’utilisation des données peuvent être longs. Il se peut que certaines données doivent passer par un deuxième système pour protéger la vie privée et d’autres renseignements stockés dans ces systèmes.

Les résultats provenant de votre flux d’apprentissage machine pourraient devoir être référencés par rapport à des champs qui ont été brouillés dans les systèmes sources. Ce qui nous ramène à la première mention des essais. Ces systèmes doivent être assez complexes pour brouiller ou chiffrer des données, mais ne doivent pas pour autant perdre le contexte ou l’unicité de ces champs qui les rendraient inutiles pour l’apprentissage machine. Les résultats peuvent devoir être retracés en un format lisible pour l’œil humain. Nous avons maintenant introduit une étape dans le flux de l’apprentissage machine qui n’a rien à voir avec l’apprentissage machine, mais qui est essentiel si l’on veut maintenir la sécurité et la conformité de votre entreprise.

Ensuite, la gestion de données

Le deuxième problème auquel nous devons faire face, c’est le manque de données. Attendez une minute. Je viens juste de dire que les données dont on avait besoin existaient dans les systèmes d’enregistrement ou de fidélisation. Il est de notoriété publique que les politiques de conservation des données sont inconstantes dans de nombreux environnements. Cela peut provenir du volume de données généré par le suivi des conversations, des interactions avec les clients et des interactions machine, et nombreuses sont les entreprises qui suppriment ces enregistrements avec le temps. De plus, les données de ces systèmes doivent être formatées uniformément pour que les machines puissent les lire. J’ai déjà vu un certain nombre de cas où les équipes tentaient de lire des renseignements de dialogues, mais passaient la majorité de leur temps à essayer de comprendre le format des données. Rien n’est plus frustrant pour un scientifique des données que de se voir donner un tas ouvert de données formatées librement à analyser pour en tirer de l’information. Mais tout n’est pas perdu sur ce front, les systèmes les plus récents sont bien meilleurs dans l’exploitation des balises commentées et d’autres méthodes pour aider à définir les données. Les outils de traitement de flux se sont grandement améliorés en peu de temps et permettent de digérer ces données plus facilement. Vous devez toutefois veiller à ce que les procédures d’exploitation standard de votre entreprise ne suppriment pas ces données. Vous avez besoin d’un volume de données historiques suffisant pour aider l’apprentissage, et si le volume n’est pas là, votre échéancier sera repoussé.

Je pourrais continuer longtemps sur le sujet, mais le dernier point que je vais aborder sur les données est l’état des données dans l’entreprise. Les données du monde réel sont extrêmement embrouillées. Même si elles proviennent de vos propres systèmes d’enregistrement, attendez-vous à ce qu’il en manque, à ce qu’elles soient incorrectes, à ce que certaines extractions de données soient insuffisantes, à devoir faire face à des erreurs de formatage ou d’étiquettes, etc. Avant que vous disiez « ça n’est pas le cas de mon entreprise », j’aimerais préciser que j’ai travaillé sur des extractions provenant des meilleurs logiciels de PRE, GRC et veille stratégique, et ils avaient tous ces problèmes. Avec le temps, nous avons tout vu, depuis les champs de commentaires dans les bases de données qui ont écrasé d’importants champs de données jusqu’aux clés primaires qui ne sont pas uniques, en passant par des données éparses là où les données requises étaient supposées être. Autant de choses qui nous ont tous laissé abasourdis.

Pour faire court, cette situation s’explique habituellement par un événement qui a corrompu des données, forçant la mise en œuvre d’un correctif, et créant cette cacophonie. La première étape, pour la majorité, consiste à utiliser des outils pour déposer des tableaux dans une grappe de serveurs qui constitue le premier lieu de stockage des données. Ces données désorganisées peuvent être à l’origine d’un échec, ou, plus important encore, à l’origine d’erreurs aberrantes comme l’embauche d’un plus grand nombre d’employés durant la basse saison. C’est un mauvais exemple, mais vous comprenez ce que je veux dire. « À données erronées, résultats erronés ».

Un écosystème d’apprentissage machine efficace doit reconnaître l’importance de recueillir, de présenter et de mettre à jour les données nécessaires à l’alimentation du flux de l’apprentissage machine. De nombreuses organisations font des faux pas durant ce processus, entraînant la frustration des scientifiques des données et des équipes d’apprentissage machine. Les organisations sont plus nombreuses encore à confier le travail de gestion des données aux spécialistes de l’apprentissage machine, ce qui ne devrait pas être le cas. J’ai embauché de nombreux spécialistes de l’apprentissage machine venant d’autres entreprises parce qu’ils ne pouvaient pas faire leur travail du fait d’un manque de données. Les données sont là, mais ils n’arrivent pas à mettre la main dessus pour faire leur travail.

Entrez en contact avec un expert

Contactez-Nous