Summary
Overview
Work History
Education
Skills
Certification
Publications
AUTRES EXPÉRIENCES EN TANT QUE FORMATEUR
Timeline
Generic

A. H.

Data Engineer & Data Scientist
Paris

Summary

Data scientist orienté résultats, avec une solide maîtrise de l’analyse statistique, du machine learning et de la visualisation de données. Son expertise en Python, R, SQL et dans des outils de traitement de données tels que GCP/BigQuery, Dataiku et Terraform (Certifications à l'appui), lui permet de produire des insights exploitables au service de la performance business. Esprit d’équipe reconnu, adaptable, avec un historique éprouvé de résultats concrets en environnements dynamiques. Réputé pour ses compétences en résolution innovante de problèmes, mettant la donnée au cœur des décisions stratégiques.

Overview

11
11
years of professional experience
5
5
Certifications
3
3
Languages

Work History

Développeur Python et Data Scientist

INP
11.2024 - Current
  • NanoDSF Dashboard: Création d’une application interactive de visualisation et d’analyse des données PDP (Protein Denaturation Profiles) issues de la technologie NanoDSF.
  • Implémentation de modules Python réutilisables pour la lecture, la transformation et l’export des données.
  • Conception d’une application interactive pour l’exploration et la visualisation standardisée des courbes de dénaturation protéique (NanoDSF).
  • Intégration d’une interface utilisateur avec Streamlit, assurant accessibilité et maintenance aisée.
  • Déploiement automatisé sur serveur Streamlit Cloud via GitHub.
  • Environnement technique : Git, Github, Python, Streamlit, Pandas, Plotly.
  • Domaine fonctionnel : Traitement de données, Computer Vision.
  • Produits: NanoDSF Visualiser.
  • PDPs Biomarker: Élaboration et mise en œuvre d’une stratégie de traitement des données visant à corriger l’effet de batch (batch effect), dans le but d’améliorer la performance des modèles de classification de l’état pathologique des patients.
  • Conception d’une architecture robuste pour la correction des effets de lot (batch effect).
  • Création d’une architecture robuste pour l’automatisation de sélection des variables (Analyse de corrélation et ACP ...)
  • Implémentation de biomarqueurs et optimisation de modèles de classification (Bagging, Boosting, Stacking, Voting).
  • Optimiser les performances des modèles en se basant sur des métriques comme (Accuracy, Precision, F1-score, AUC ...)
  • Mise en place d’un pipeline d’entraînement reproductible avec Mlflow (Continous training) pour suivre tous les entraînements automatiques, comparer les performances des modèles et gérer leur déploiement.
  • Création d’un outil Streamlit centralisant les visualisations, les résultats et les métadonnées.
  • Environnement technique : Git, Github, Python, Streamlit, Pandas, Sklearn, Mlflow, Shap.
  • Domaine fonctionnel : Traitement de données, Machine Learning.
  • Produits: PDPs Biomarker.

Data Scientist – Développeur Python

Odacel
01.2024 - 08.2024
  • Atseeone: Développement d’un module de suivi de l’état de chargement des véhicules de transport de marchandises, basé sur l’exploitation de données géospatiales.
  • Développement d’un pipeline de traitement des données GPS (vitesse, latitude, longitude, altitude, variation d’angles) et extraction de features temporelles (accélération).
  • Implémentation d’un Dashboard de visualisation des trajets avec Flask et Folium.
  • Correction des anomalies GPS et alignement temporel pour garantir la cohérence des données.
  • Orchestration des tâches avec Airflow pour garantir l’automatisation des flux de données pour chaque véhicule ajouté.
  • Sauvegarder l’empreinte unique de chaque annonce dans une base PGsql.
  • Entraînement des modèles de deep learning (LSTM, CNN) et ensembles (bagging, boosting, stacking, voting) pour classifier l’état des véhicules.
  • Optimisation des hyperparamètres via validation croisée adaptée aux séries temporelles (TimeSeriesSplit).
  • Conception d’une API avec FastApi consommant le modèle de classification le plus adapté, permettant la prédiction en temps réel de l’état des camions (chargé ou vide), afin d’optimiser la logistique et le suivi des flottes.
  • Environnement technique : Git, Gitlab, Pgsql, Docker, Python, FastApi, Pandas, Sklearn, Folium, Airflow, Swagger, keras.
  • Domaines fonctionnel : Logistique, Traitement de données et Machine learning.
  • Produits: Atseeone

Data Scientist – Developpeur Python

Make-It-Digital
03.2023 - 12.2023
  • TISEN : Conception d’un moteur de détection de similarité d’images appliqué aux annonces immobilières. L’approche repose sur l’extraction d’indicateurs statistiques à partir de l’ensemble des visuels associés à chaque annonce (distribution des intensités de pixels, histogrammes, etc.), dans le but de détecter automatiquement les doublons ou les annonces visuellement similaires.
  • Conception d’une API REST avec Flask pour analyser des images distantes d’une annonce immobilière via leurs URLs.
  • Extraction automatique des histogrammes de couleur (canaux R, G, B) avec normalisation.
  • Mise en œuvre de règles de filtrage pour exclure les images bruitées ou saturées.
  • Automatisation des traitements avec des DAGs Airflow.
  • Sauvegarder les empreintes uniques des annonces dans une base PGsql.
  • Parallélisation du traitement d’images avec ThreadPoolExecutor pour améliorer la performance.
  • Packaging des codes avec Docker.
  • Réalisation des Tests fonctionnels avec Postman.
  • Conception d’une Api de comparaison des annonces en ce basant sur les données de la première API.
  • Implémentation d’une règle de décision basée sur des tests statistiques (paramétriques et non-paramétriques) pour comparer les annonces.
  • Réalisation des Tests fonctionnels avec Postman.
  • Environnement technique : Git, Gitlab, Docker, PGsql, Python, Flask, Pandas, Sklearn, PIL, Postman.
  • Domaine fonctionnel : Traitement d’images et Machine Learning.
  • Produits: TISEN

Data Scientist – Data Engineer

Ridcha Data
07.2022 - 03.2023
  • CvTech: Développement de l’application CvTech, un outil de gestion des ressources humaines destiné à l’analyse intelligente de CV.
  • Annotation automatisée des sections de CV avec Document AI.
  • Annotation automatisée des sections de fiche de post avec Document AI (pour extraire les compétences clés demandées).
  • Structuration des données dans BigQuery pour analyses croisées.
  • Entraînement d’un processeur personnalisé pour la vectorisation des éléments de cv avec Bert via Vertex AI.
  • Environnement technique : GCP, Bigquery, GCS, Cloud Composer, Python, Vertex AI, Document AI, Pandas, Git, Gitlab.
  • Domaine fonctionnel : Traitement de données.
  • Produits: CvTec.

Data Scientist – Data Engineer

Ridcha Data
10.2021 - 07.2022
  • DataPro: Une solution dédiée aux équipes commerciales et marketing des entreprises souhaite améliorer ses campagnes marketing et introduire la prise de décision basée sur les données dans son processus de vente en utilisant les techniques du Machine Learning/Deep Learning.
  • Ingestion de grandes quantités de données de sources différentes (BigQuery, SQL).
  • Organisation, modélisation et structuration des données.
  • Adaptation des modèles selon les besoins (use case).
  • Identification des use cases réalisables par les techniques de Machine Learning/Deep Learning.
  • Définition de l’architecture technique et fonctionnelle des solutions.
  • Préparation des données, développement des modèles de classification, industrialisation sur GCP (Dataflow, BigQuery, Vertex AI, JupyterLab).
  • Utilisation des APIs pour le développement et le déploiement efficaces des modèles
  • Environnement technique : GCP, Bigquery, GCS, Cloud Composer, Python, Vertex AI, Pandas, Sklearn, keras, Git, Gitlab.
  • Domaine fonctionnel : Traitement de données, Commerce en ligne.
  • Produits: DataPro.

Doctorant-Chercheur

Université de Sfax
01.2015 - 07.2018
  • Durant ma thèse de doctorat, j’ai travaillé sur deux axes principaux des mathématiques appliquées, avec un focus particulier sur l’utilisation de modèles statistiques, notamment les modèles de régression généralisée, ainsi que les modèles de mélanges de classes et de Tweedie. Ces travaux ont abouti à plusieurs publications scientifiques et ont trouvé des applications concrètes.
  • Collaboration avec TelcoTec, une société spécialisée dans les télécommunications :
  • Mise en place d’une stratégie de collecte des données pour l’analyse de l’intensité du signal Wi-Fi en environnement intérieur.
  • Préparation des données et développement de modèles de prédiction basés sur des modèles de régression linéaire généralisée, en tenant compte du nombre et du type d’obstacles présents.
  • Rédaction et publication d’un article scientifique détaillant les résultats obtenus.
  • Unité de Recherche en Probabilités et Statistiques :
  • Prétraitement des images médicales dans le cadre de la segmentation d’images.
  • Développement de modèles de segmentation d’images médicales, dans le but de déterminer la région d’intérêt (ROI) des tumeurs cérébrales.
  • Environnement technique : R, Matlab, latex, ggplot2, EBImage, Wilcoxon, ANOVA, GLM, Shiny, tidyverse.
  • Domaine fonctionnel : Traitement de données et Recherche scientifique.

Education

Doctorat - Mathématiques Appliquées (Probabilité et Statistiques)

Faculté Des Sciences
Tunisie
01-2018

Mastère - Mathématiques Appliquées

Faculté Des Sciences
Tunisie
01-2014

Skills

  • Big Data: PostgreSQL, Big Query, Cloud Storage, Data Flow, Airflow, MLflow
  • Cloud: GCP, Cloud Composer, Vertex AI, Dataiku, Groq
  • Dev: Python, R, Matlab
  • Data Science : Analyse exploratoire, Modélisation statistique, Tests d’hypothèses, Features Engineering
  • IA & Machine Learning: ML, DL, NLP, Computer Vision IA Gen (LLMs)
  • MLOps: Mlflow, Airflow, Docker, Git, Terraform
  • Outils: scikit-learn, Pandas, keras, TensorFlow, Plotly, HuggingFace, Pandas, Django, Flask, FastApi, Streamlit,Shiny, Tidyverse
  • Gestion de projets : Méthodologie Agile/Méthode Scrum
  • Large dataset manipulation
  • Data screening, Document AI

Certification

Google Cloud Professional (GCP) Data Engineer

Publications

  • 2025 [En cours] AI-powered plasmatic digital biomarker to detect brain and systemic cancers.
  • 2022 On the existence of the Tweedie power parameter implicit estimator Auteurs: Abdelaziz Ghribi, Aymen Hassin et Afif Masmoudi Journal: Bulletin of the Korean Mathematical Society
  • 2018 “Steady state analysis of water distribution systems: from looped topology to an equivalent tree network ”. Journal: “Proc. of the 5th IAHR Europe Congress -New Challenges in Hydraulic Research and Engineering”. Auteurs: Zahreddine Hafsi, Sami Elaoud, Mohsen Akrout et Aymen Hassin. doi:10.3850/978.981.11.2731.1206-cd2017.
  • 2018 “Tweedie regression models: a proposed statistical approach for modelling indoor signal path loss ”. Journal: “International Journal of Numerical Modelling: Electronic Networks, Devices and Fields: (Wiley) DOI 10.1002/jnm.2243”. Auteurs: Aymen Hassin, Afif Masmoudi, Abdelaziz Ghribi.

AUTRES EXPÉRIENCES EN TANT QUE FORMATEUR

  • Depuis 2024 (Aix-Marseille)
  • 2018–2022 (ESPRIT) Expertise Data/IA & Biostatistiques et Enseignement Avancé :
  • ESPRIT : Machine Learning, statistiques inférentielles, analyse numérique, encadrement de 15+ PFE en IT/Data.
  • Aix-Marseille : Cours et ateliers en IA appliquée (Master), biostatistiques, programmation scientifique (Python/R), et analyse de données biomédicales.

Timeline

Développeur Python et Data Scientist

INP
11.2024 - Current

Data Scientist – Développeur Python

Odacel
01.2024 - 08.2024

Data Scientist – Developpeur Python

Make-It-Digital
03.2023 - 12.2023

Data Scientist – Data Engineer

Ridcha Data
07.2022 - 03.2023

Data Scientist – Data Engineer

Ridcha Data
10.2021 - 07.2022

Doctorant-Chercheur

Université de Sfax
01.2015 - 07.2018

Doctorat - Mathématiques Appliquées (Probabilité et Statistiques)

Faculté Des Sciences

Mastère - Mathématiques Appliquées

Faculté Des Sciences
A. H.Data Engineer & Data Scientist