La Chasse au Papyrus

October 20, 2024 Analyse Linguistique, Beautiful Soup, NLTK, Python, Streamlit, Visualisation de Données
0 min.

Contexte du Projet

Ce projet avait pour objectif d’automatiser la collecte et l’analyse de données textuelles à partir de sources en ligne. Nous avons développé une application capable de récupérer des données, les traiter et les visualiser pour en extraire des informations significatives sur la distribution lexicale, les entités nommées et les irrégularités linguistiques dans un corpus de papyri.

Missions Réalisées

Développement de Scripts de Web Scraping :
- Utilisation de Python et de BeautifulSoup pour extraire des données textuelles à partir de la base Trismegistos, incluant des informations détaillées pour chaque papyrus (ID, date, provenance, langue, matériel, publications et archives).
Prétraitement et Analyse du Corpus :
- Nettoyage des données textuelles pour supprimer les caractères indésirables, et extraction des entités nommées (personnes et lieux) pour une analyse linguistique approfondie.
- Identification des changements de son et analyse des transformations de caractères pour détecter les irrégularités dans le texte, révélant les évolutions linguistiques au fil du temps.
Visualisation Interactive avec Streamlit :
- Développement d’une application Streamlit interactive permettant aux utilisateurs de filtrer le corpus par provenance, date et entités nommées. L'application affiche une carte de l'Égypte avec des marqueurs pour visualiser la localisation des papyri.
Exploration Visuelle des Résultats :
- Visualisation de la distribution des genres, provenances et temporalités des papyri, ainsi que des changements de caractères les plus fréquents. Les graphiques permettent de détecter des tendances dans le corpus, comme la répartition géographique et les particularités linguistiques.

Compétences Techniques Acquises

Python pour le développement général et la manipulation de données.
BeautifulSoup pour le web scraping, extraction de données textuelles.
NLTK et pandas pour le prétraitement des données et l'analyse linguistique, incluant la reconnaissance d'entités nommées (NER).
Streamlit pour la création d'une interface utilisateur interactive permettant de visualiser et d'explorer les analyses en temps réel.
Matplotlib et Folium pour la visualisation des données et la création de graphiques interprétables et de cartes interactives.

Compétences Humaines Acquises

Autonomie : Gestion de chaque étape du projet de manière indépendante, de la collecte des données à la présentation des résultats.
Capacité d'Analyse : Analyse approfondie des données textuelles pour dégager des tendances linguistiques et des structures géographiques dans les sources anciennes.
Gestion de Projet : Planification et réalisation des tâches pour respecter les objectifs et les délais fixés.

Résultats et Éléments de Preuve

Application Streamlit : Une application en ligne interactive permettant de visualiser et d’explorer les résultats de l’analyse des corpus, avec des filtres et une carte des provenances des papyri.
Visualisations des Changements de Sons et Caractères : Graphiques illustrant les transformations linguistiques les plus fréquentes, comme les changements de caractères, pour identifier les tendances d'évolution dans les papyri.
Rapport d'Analyse : Un document détaillant les résultats de l’analyse, y compris des graphiques illustrant la fréquence des mots, la distribution des genres et des provenances.

Lien vers le code GitHub - Code source de l’application et des scripts de collecte et d’analyse.

La chasse au papyrus a été une expérience enrichissante, combinant web scraping, analyse de corpus, et développement d’interface. Ce projet m’a permis de renforcer mes compétences en traitement de données textuelles et en visualisation interactive, tout en répondant à des objectifs d’autonomie et de rigueur.