CV
Perrine Quennehen
Data Scientist spécialisée en Traitement Automatique du Langage (NLP)
📍 Pantin (93), France
📞 06 65 61 98 38
📧 perrine.quennehen@gmail.com
📅 Née le 14 février 1997
GitHub : PerrineQhn
LinkedIn : perrine-quennehen
À Propos de Moi
Attirée par les avancées technologiques dans le domaine du Traitement Automatique du Langage, je souhaite mettre à profit mes compétences en Python, Machine Learning et linguistique computationnelle pour contribuer à des projets d’innovation en NLP. Mon esprit d’analyse et ma proactivité me permettent de développer des solutions génératives performantes, tout en assurant la robustesse et l’efficacité des modèles déployés.
Disponible à partir de mai 2025, je recherche un stage de fin d’études pour consolider et appliquer mes compétences.
Expériences Professionnelles
Ingénieure TAL - Stagiaire
Laboratoire Modyco (CNRS), Nanterre | Novembre 2023 - Juillet 2024
Expansion du Corpus Naija Syncor : Multiplication par deux de la taille du corpus grâce à la collecte et l’intégration de nouvelles données.
Implémentation d’Outils ASR : Utilisation d’outils de reconnaissance automatique de la parole tels que SPPAS pour extraire et analyser les données intonatives via des scripts Python.
Automatisation : Mise en place de scripts Python pour automatiser l’alignement audio-transcription, optimisant ainsi le temps d’annotation.
Mise à Jour des Données Prosodiques : Création d’un outil pour actualiser les données prosodiques dans les fichiers CoNLL-U.
Modélisation avec Whisper : Utilisation de modèles Whisper fine-tunés pour l’entraînement sur la détection des pauses.
Ingénieure TAL - Stagiaire
Laboratoire Modyco (CNRS), Nanterre | Juin 2023 - Juillet 2023
- Conception d’un Lexique Prosodique : Élaboration d’un lexique prosodique du Naija.
- Enrichissement des Données : Identification des schémas prosodiques (semi-tons, durées, pentes) pour enrichir les données.
- Publication : Présentation du lexique dans un article soumis aux conférences LREC-COLING 2024 et TALN.
- Arbres de Décision : Développement d’arbres de décision pour catégoriser les lemmes en fonction de leurs caractéristiques prosodiques, avec automatisation sous Python et expérimentation avec Scikit-Learn.
Projets Académiques
Extraction de Mots-Clés : TF-IDF vs. LDA
Avril 2024
- Développement de Modèles : Création de modèles TF-IDF et LDA pour l’extraction de mots-clés.
- Comparaison des Performances : Évaluation avec des métriques telles que précision, rappel et F-mesure.
- Technologies Utilisées : Scikit-learn, Gensim, NLTK, Pandas.
- Compétences Développées : Esprit d’équipe, autonomie, rédaction.
Évaluation d’OpenNMT (Deep Learning)
Avril 2024
- Analyse de Corpus : Évaluation d’OpenNMT avec des corpus lemmatisés et non lemmatisés.
- Métriques d’Évaluation : Utilisation des scores BLEU, METEOR, BERT pour l’analyse des résultats.
- Technologies Utilisées : OpenNMT PyTorch, NLTK, Scikit-learn.
- Compétences Développées : Esprit d’équipe, autonomie, rédaction.
Multi-Classification de Texte par Langue
Mai 2024
- Extraction de Données : Récupération de données textuelles multilingues depuis Wikipédia.
- Prétraitement : Nettoyage et normalisation des données textuelles.
- Analyse Morphosyntaxique : Utilisation de Stanza et SpaCy pour l’analyse.
- Modélisation : Évaluation des performances d’un modèle de classification multilingue.
De Flaubert à Flaubert
Octobre 2024
- Collecte de Données : Téléchargement des œuvres de Flaubert depuis le Projet Gutenberg.
- Nettoyage et Structuration : Traitement des textes pour une analyse stylistique.
- Analyse Linguistique : Utilisation de modèles pré-entraînés comme FlauBERT.
- Préparation des Données : Lemmatisation et tokenisation pour des analyses approfondies.
La Chasse au Papyrus
Novembre 2024
- Web Scraping : Développement de scripts pour collecter des données textuelles en ligne.
- Analyse de Corpus : Exploration des caractéristiques du corpus via des outils de visualisation.
- Interface Utilisateur : Création d’une interface avec Streamlit pour la visualisation des résultats.
Création d’un OCR Chinois
Octobre 2024
- Entraînement de Modèles : Développement d’un modèle CRNN pour la reconnaissance de caractères.
- Comparaison de Modèles : Évaluation des performances entre Tesseract, EasyOCR et Llava2.
- Technologies Utilisées : Python, PyTorch, Scikit-learn, Pandas, Matplotlib.
Formations
Master TAL Spécialité Ingénierie Multilingue
Inalco, Paris | Septembre 2023 - Décembre 2025
- Modules Clés :
- NLP avec Python
- Machine & Deep Learning (IA)
- Statistiques et Probabilités
- Linguistique
- Développement Web (HTML/CSS/JS)
- Programmation Objet (C++/C#)
LLCER Chinois Spécialité TAL
Inalco, Paris | Septembre 2020 - Juillet 2023
Compétences
Informatique
- Langages de Programmation :
- Python (intermédiaire)
- C++ (débutant)
- C# (débutant)
- SQL (débutant)
- Bash (débutant)
- Technologies Web :
- HTML/CSS (intermédiaire)
- Contrôle de Version :
- Git (intermédiaire)
- Outils NLP :
- NLTK, SpaCy
- PyTorch, TensorFlow
- Pandas, Scikit-Learn
- Outils Divers :
- SPPAS (débutant)
- Praat (débutant)
Soft Skills
- Persévérance
- Autonomie
- Rigueur
- Curiosité
- Esprit d’équipe
Langues
- Français : Langue maternelle
- Anglais : Niveau C1
- Chinois : Niveau B2