CV

Perrine Quennehen

Data Scientist spécialisée en Traitement Automatique du Langage (NLP)

📍 Pantin (93), France

📞 06 65 61 98 38

📧 perrine.quennehen@gmail.com

📅 Née le 14 février 1997

GitHub : PerrineQhn

LinkedIn : perrine-quennehen

À Propos de Moi

Attirée par les avancées technologiques dans le domaine du Traitement Automatique du Langage, je souhaite mettre à profit mes compétences en Python, Machine Learning et linguistique computationnelle pour contribuer à des projets d’innovation en NLP. Mon esprit d’analyse et ma proactivité me permettent de développer des solutions génératives performantes, tout en assurant la robustesse et l’efficacité des modèles déployés.

Disponible à partir de mai 2025, je recherche un stage de fin d’études pour consolider et appliquer mes compétences.

Expériences Professionnelles

Ingénieure TAL - Stagiaire

Laboratoire Modyco (CNRS), Nanterre | Novembre 2023 - Juillet 2024

Expansion du Corpus Naija Syncor : Multiplication par deux de la taille du corpus grâce à la collecte et l’intégration de nouvelles données.
Implémentation d’Outils ASR : Utilisation d’outils de reconnaissance automatique de la parole tels que SPPAS pour extraire et analyser les données intonatives via des scripts Python.
Automatisation : Mise en place de scripts Python pour automatiser l’alignement audio-transcription, optimisant ainsi le temps d’annotation.
Mise à Jour des Données Prosodiques : Création d’un outil pour actualiser les données prosodiques dans les fichiers CoNLL-U.
Modélisation avec Whisper : Utilisation de modèles Whisper fine-tunés pour l’entraînement sur la détection des pauses.

Ingénieure TAL - Stagiaire

Laboratoire Modyco (CNRS), Nanterre | Juin 2023 - Juillet 2023

Conception d’un Lexique Prosodique : Élaboration d’un lexique prosodique du Naija.
Enrichissement des Données : Identification des schémas prosodiques (semi-tons, durées, pentes) pour enrichir les données.
Publication : Présentation du lexique dans un article soumis aux conférences LREC-COLING 2024 et TALN.
Arbres de Décision : Développement d’arbres de décision pour catégoriser les lemmes en fonction de leurs caractéristiques prosodiques, avec automatisation sous Python et expérimentation avec Scikit-Learn.

Projets Académiques

Extraction de Mots-Clés : TF-IDF vs. LDA

Avril 2024

Développement de Modèles : Création de modèles TF-IDF et LDA pour l’extraction de mots-clés.
Comparaison des Performances : Évaluation avec des métriques telles que précision, rappel et F-mesure.
Technologies Utilisées : Scikit-learn, Gensim, NLTK, Pandas.
Compétences Développées : Esprit d’équipe, autonomie, rédaction.

Évaluation d’OpenNMT (Deep Learning)

Avril 2024

Analyse de Corpus : Évaluation d’OpenNMT avec des corpus lemmatisés et non lemmatisés.
Métriques d’Évaluation : Utilisation des scores BLEU, METEOR, BERT pour l’analyse des résultats.
Technologies Utilisées : OpenNMT PyTorch, NLTK, Scikit-learn.
Compétences Développées : Esprit d’équipe, autonomie, rédaction.

Multi-Classification de Texte par Langue

Mai 2024

Extraction de Données : Récupération de données textuelles multilingues depuis Wikipédia.
Prétraitement : Nettoyage et normalisation des données textuelles.
Analyse Morphosyntaxique : Utilisation de Stanza et SpaCy pour l’analyse.
Modélisation : Évaluation des performances d’un modèle de classification multilingue.

De Flaubert à Flaubert

Octobre 2024

Collecte de Données : Téléchargement des œuvres de Flaubert depuis le Projet Gutenberg.
Nettoyage et Structuration : Traitement des textes pour une analyse stylistique.
Analyse Linguistique : Utilisation de modèles pré-entraînés comme FlauBERT.
Préparation des Données : Lemmatisation et tokenisation pour des analyses approfondies.

La Chasse au Papyrus

Novembre 2024

Web Scraping : Développement de scripts pour collecter des données textuelles en ligne.
Analyse de Corpus : Exploration des caractéristiques du corpus via des outils de visualisation.
Interface Utilisateur : Création d’une interface avec Streamlit pour la visualisation des résultats.

Création d’un OCR Chinois

Octobre 2024

Entraînement de Modèles : Développement d’un modèle CRNN pour la reconnaissance de caractères.
Comparaison de Modèles : Évaluation des performances entre Tesseract, EasyOCR et Llava2.
Technologies Utilisées : Python, PyTorch, Scikit-learn, Pandas, Matplotlib.

Formations

Master TAL Spécialité Ingénierie Multilingue

Inalco, Paris | Septembre 2023 - Décembre 2025

Modules Clés :
NLP avec Python
Machine & Deep Learning (IA)
Statistiques et Probabilités
Linguistique
Développement Web (HTML/CSS/JS)
Programmation Objet (C++/C#)

LLCER Chinois Spécialité TAL

Inalco, Paris | Septembre 2020 - Juillet 2023

Compétences

Informatique

Langages de Programmation :
- Python (intermédiaire)
- C++ (débutant)
- C# (débutant)
- SQL (débutant)
- Bash (débutant)
Technologies Web :
- HTML/CSS (intermédiaire)
Contrôle de Version :
- Git (intermédiaire)
Outils NLP :
- NLTK, SpaCy
- PyTorch, TensorFlow
- Pandas, Scikit-Learn
Outils Divers :
- SPPAS (débutant)
- Praat (débutant)

Soft Skills

Persévérance
Autonomie
Rigueur
Curiosité
Esprit d’équipe

Langues

Français : Langue maternelle
Anglais : Niveau C1
Chinois : Niveau B2