A computer vision project developed in Python
Il progetto è sviluppato in python e utilizza algoritmi di Machine Learning per riconoscere i volti e gli audio. In questo progetto sono stati affrontati tre differenti task:
-
Processing di segnali monodimensionali (Audio signal) Relativi a questo task, sono disponibili i seguenti codici:
- '1_Audio_capturing.ipynb': acquisizione automatica di segnali audio tramite microfono del pc.
- '2_Audio_augmenter.ipynb': augmentation (crop, noise, speed, tract) di segnali audio
- '3.1_Audio_model_Monocanale.ipynb': feature extraction + modelli di classificazione (NNet e SVM con HPO-GridSearch)
- '3.2_Audio_model_Bicanale.ipynb': estrazione dello spetrogramma + modello di classificazione (NNet)
-
Processing di segnali bidimensionali (Photo signal) Relativi a questo task, sono disponibili i seguenti codici:
- '1_capturing_images.ipynb': acquisizione automatica di foto tramite webcam.
- '2_Face_Augmentation_Recognition.ipynb': augmentation delle immagini (brightness, flip) e face detection.
- '3_Face_classification.ipynb': feature extraction (VGGface net) + face classification (SVM con HPO-GridSearch)
-
Image retrieval di cui è disponibile:
- '1_Retrieval': face detection + feature extraction (mobilenet) + costruzione dell'albero di ricerca.
Inoltre, è disponibile il codice per effettuare una demo-live.
Le slide del progetto sono disponibili al link: https://prezi.com/view/lyO6ZLI6zPc6pHvU10wN/