Este projeto tem como objetivo realizar uma análise exploratória dos dados de qualidade da água em praias de Chicago e aplicar técnicas de clusterização para identificar possíveis grupos de praias com características semelhantes.
O projeto requer as seguintes bibliotecas:
- pandas
- matplotlib
- seaborn
- scikit-learn
- plotly
- scipy
As bibliotecas podem ser instaladas utilizando o pip, por exemplo:
pip install pandas matplotlib seaborn scikit-learn plotly scipy
O arquivo data.csv
contém os dados brutos utilizados na análise. Para executar a análise e gerar os resultados, execute o notebook analysis.ipynb
.
O notebook contém as seguintes seções:
- Carregamento e visualização dos dados
- Pré-processamento dos dados
- Análise exploratória dos dados
- Clusterização com K-means
- Clusterização com Hierarchical Clustering
- Clusterização com DBSCAN
Para visualizar os resultados, basta executar todas as células do notebook. Os resultados serão apresentados na forma de gráficos e tabelas.
Contribuições são bem-vindas. Para sugestões, reportar erros ou problemas, por favor, abra uma issue no repositório do projeto.