Parcours scientifique des données de Manu Joseph, le créateur de PyTorch Tabular

Parcours scientifique des données de Manu Joseph, le créateur de PyTorch Tabular


« Je m’épanouis dans des situations où je dois faire avancer les choses ou créer de nouveaux systèmes et de nouveaux modules. J’aime satisfaire ma curiosité et mon trait de maker », a déclaré le créateur de PyTorch Tabular, GATE et LAMA-Net, Manu Joseph. Il a déclaré qu’il était fasciné par les mathématiques, la science des données et l’apprentissage automatique, en particulier l’apprentissage en profondeur, en raison de sa flexibilité et de son évolutivité.

Joseph dirige actuellement la recherche appliquée chez Thoucentric, une société de gestion de niche. Au sein de l’entreprise, il dirige le groupe de chercheurs dans la production de technologies de pointe pour ajouter de la valeur aux clients du monde réel, principalement dans la causalité, la maintenance prédictive, la prévision de séries chronologiques, la PNL et autres. Avant cela, il a travaillé avec des entreprises comme Philips, Entercoms, Schneider Electric, Cognizant Technology Solutions et autres.

Dans une interview exclusive avec Analytics India Magazine, Joseph parle de son parcours dans la science des données, ainsi que de certains de ses projets passionnés, des conseils pour les personnes qui entrent dans la science des données pour de meilleures opportunités de carrière, et plus encore.

Un Data Scientist autodidacte

Depuis le début de sa carrière en génie industriel jusqu’au travail dans l’industrie informatique, puis dans le domaine de la science des données et de l’analyse, et actuellement à la tête des initiatives de recherche, le parcours de Joseph a été vraiment inspirant.

“La transition d’un rôle STEM, par exemple, l’ingénierie, à la science des données est relativement plus facile que dans d’autres domaines”, a déclaré Joseph. Il a dit que quelle que soit la branche que vous étudiez en ingénierie, cela change la façon dont votre cerveau est câblé. “Je pense que c’est vraiment utile dans toutes ces choses”, a-t-il ajouté.

Cependant, il a déclaré que lorsque vous transférez des domaines vers des domaines tels que l’apprentissage automatique, les statistiques ou l’informatique, vous devez être à l’aise avec la programmation. “Il n’y a pas moyen de contourner cela”, a-t-il ajouté.

Il a dit que vous pouviez apprendre tout l’apprentissage automatique, vous pouvez tout apprendre, mais en fin de compte, pour que tout cela soit utile, vous devez convertir cela en code. « Dans le scénario d’aujourd’hui, personne ne le fera pour vous. Vous devez donc le faire vous-même », a-t-il ajouté, affirmant qu’il y a quelques années, c’était le luxe, mais maintenant, avec la croissance rapide de l’industrie, il n’y a pas d’autre choix que d’apprendre.

De plus, Joseph a dit que vous ne devriez pas avoir peur des mathématiques. «Cela ne vous gênera pas au début. Vous pouvez vous en sortir sans mathématiques au début, mais finalement, cela viendra frapper à votre porte et cela fera alors une grande différence », a-t-il ajouté, affirmant qu’il est beaucoup plus facile de communiquer des concepts en mathématiques qu’en anglais. « Comprendre ce qui se passe est en fait très important. Sinon, vous pourrez construire un modèle ; vous serez en mesure de prédire et d’obtenir des résultats. Mais, la première fois que vous heurtez un mur, sans savoir ce qui se passe en arrière-plan, vous ne pourrez pas contourner le problème », a déclaré Joseph.

Enfin, il a déclaré que les gens devraient commencer à examiner des problèmes intéressants, créer des ensembles de données, participer à des hackathons et développer des modèles pour les rendre plus utiles. “Éloignez-vous de vos ensembles de données Titanic standard et résolvez quelque chose d’intéressant qui fait ressortir votre CV. Il est très facile d’identifier les personnes qui ont fait un effort supplémentaire », a-t-il ajouté.

Origine de PyTorch tabulaire

Ingénieur industriel devenu scientifique des données, Joseph a déclaré que lorsque vous travaillez sur un problème commercial, les données tabulaires constituent environ 90 % des données – qui sont dans des tableaux – et tout votre apprentissage automatique classique sont les choses que nous utilisons toujours. Cependant, ce ne sont qu’une petite partie de ce que nous pouvons faire car il y a beaucoup plus de pistes à explorer.

“C’est là que nous avons commencé à nous intéresser à l’apprentissage en profondeur. Au cours de mes recherches, j’ai découvert qu’il n’y avait pas beaucoup de travail dans ce domaine », se souvient Joseph, affirmant qu’auparavant, les gens utilisaient encore des réseaux d’anticipation standard et quelque chose comme des intégrations catégorielles en plus, pour un modèle tabulaire.

« Comme je m’intéressais au domaine, je surveillais ce qui se passait. C’est alors que des modèles comme TabNet et quelques autres modèles sont sortis. J’ai donc constaté une accélération dans l’espace, car de plus en plus de personnes cherchaient à utiliser des architectures créatives pour les données tabulaires », a ajouté Joseph.

De plus, il a dit que lorsque tous ces modèles sont sortis et que les gens ont commencé à mettre en œuvre leurs propres données, cela a été très compliqué. « Car à part TabNet, qui possède une très bonne bibliothèque, tous les autres modèles étaient pour la plupart des bases codées. Le faire fonctionner était extrêmement lourd », a-t-il ajouté.

Ce fut le début de PyTorch Tabular, un cadre d’apprentissage en profondeur avec des données tabulaires. Le framework a été construit sur PyTorch et PyTorch Lighting et fonctionne directement sur les trames de données pandas. Il a également utilisé des modèles SOTA tels que NODE et TabNet pour créer une API unifiée.

« J’ai commencé cela comme un projet interne. A l’époque, il n’avait même pas de nom. L’idée, cependant, était d’unifier tout cela afin de pouvoir basculer entre différents modèles, tout comme une configuration Scikit-learn », a déclaré Joseph. Il a déclaré qu’une fois le pipeline de données prêt, le passage à un nouveau modèle consiste simplement à modifier une ligne de code. C’était le principe directeur derrière le développement de PyTorch Tabular. Bientôt, il a ouvert la bibliothèque pour que d’autres puissent y contribuer et l’utiliser. C’est l’une des bibliothèques ML les plus appréciées et les plus discutées sur GitHub.

Entre dans la PORTE

Une chose mène à une autre; Joseph et son collègue Harsh Raj ont ensuite publié une nouvelle architecture d’apprentissage en profondeur hautes performances, paramétrique et efficace en termes de calcul pour les données tabulaires appelée GATE (ensemble d’arbre additif fermé). Inspiré de GRU, GATE utilise un mécanisme de déclenchement comme unité d’apprentissage de représentation de caractéristiques avec un mécanisme de sélection de caractéristiques intégré. Il utilise également un ensemble d’arbres de décision différentiables et non linéaires, repondérés avec une simple auto-attention pour prédire la sortie souhaitée.

Joseph a déclaré que GATE est une alternative compétitive aux méthodes SOTA comme les GBDT, NODE, FT Transformers, etc., où ils ont expérimenté sur plusieurs ensembles de données publics (à la fois la classification et la régression). Le code n’est pas encore disponible en open source.

LAMA-Net

Chez Thoucentric, Joseph, aux côtés de Varchita Lalwani, a récemment développé LAMA-Net, un nouveau modèle basé sur un encodeur-décodeur (transformateur) avec un goulot d’étranglement induit, un alignement latent utilisant un écart moyen maximal et un apprentissage multiple pour résoudre le problème de l’adaptation de domaine homogène non supervisée pour rester prédiction de la durée de vie utile (RUL).

Citant la maintenance prédictive dans la fabrication, Joseph a déclaré qu’il s’agissait davantage d’une technique d’adaptation de domaine, dans laquelle nous nous concentrons sur la manière dont nous pouvons utiliser les données d’entraînement avec des distributions de données changeantes pour former un modèle robuste afin de prédire le temps utile restant.

« Dans une implémentation réelle, il est vraiment difficile d’obtenir les données nécessaires pour entraîner ces modèles. Vous aurez besoin de données pour plusieurs échecs dans le passé, et les échecs sont généralement un événement rare. Donc, obtenir les données est difficile », a déclaré Joseph, affirmant qu’en utilisant les ensembles de données existants, nous pouvons désormais utiliser notre adaptation de domaine à un nouvel ensemble de données sans aucune étiquette.

Et ensuite ?

À ce jour, Joseph a travaillé sur plus de 20 projets AI/ML et, à titre personnel, il a travaillé sur plus de dix projets. Chez Thoucentric, il constitue actuellement une équipe de scientifiques des données qui travailleront sur les technologies de la nouvelle ère pour résoudre les problèmes de leurs clients. L’équipe travaille sur quatre projets différents et prévoit de publier trois articles dans les mois à venir.

Joseph a déclaré à AIM qu’il continuerait à développer de nouvelles méthodes et technologies dans des domaines qui n’utilisent pas beaucoup de données de formation et à construire des modèles indépendants du domaine. “Parce que, ayant travaillé dans l’industrie depuis un certain temps maintenant, je sais que les données de formation sont très difficiles à obtenir. Cela aussi, comme les données d’entraînement annotées, est très, très difficile à obtenir », a déclaré Joseph. Il a dit que c’est pourquoi il s’intéresse à des domaines comme l’apprentissage par transfert, l’apprentissage auto-supervisé, etc.

Go-to Resources organisée par Manu Joseph

Ressources en science des données :

Bulletins :

Cours IA/ML :

Documents de recherche à lire absolument

Leave a Comment