Modelagem de dados em um cenário de uma empresa de Telecomunicações utilizando três tipos de modelo: o KNN, o Bernoulli Naive Bayes, as Árvores de decisão
Sobre • Funcionalidades • Conclusão • Tecnologias • Licença
Este notebook é uma forma de praticar meus conhecimentos em ciência de dados, principalmente com a biblioteca de Machine Learning do SKLearn. Ele nos orienta em um fluxo de trabalho para resolver um problema em um cenário de uma empresa de telecomunicações, onde atraves de algoritmos de classificação, sera possivel comparar e medir quais modelos serao mais uteis para o problema proposto.
Será estudado os tipos de modelo: o KNN, o Bernoulli Naive Bayes, as Árvores de decisão e através de uma analise das métrica será possível avaliar o desempenho de cada um dos modelos. Serão analisadas as seguintes métricas
- Precisão: É utilizada quando queremos saber dentre todas as classificações de classe Positivo realizadas pelo modelo, quantas estão corretas;
- Acurácia: É utilizada quando queremos saber a performance geral do modelo, isto é, dentre todas as classificações realizadas, quantas foram classificadas corretamente pelo modelo;
- Recall: É utilizada quando queremos saber a performance de classificar resultados que realmente são positivos, isto é, garantindo maior fidelidade em resultados positivos;
O principal objetivo deste notebook é servir como um guia de fluxo de trabalho passo a passo, permitindo que eu mesmo revise este caderno e sirva de estudo para casos futuros.
Este notebook foi desenvolvido dentro do ambiente Google Colab.
- Pré-Processamento;
- Modelo K-nearest neighbors (KNN);
- Modelo Bernoulli Naive Bayes;
- Modelo de Arvore de Decisão;
- Validação dos modelos;
Dentre os modelos estudados, vale evidenciar que todos se destacaram em métrica em particular. Dentre os destaques estão:
- Precisão: O melhor modelo para precisão foi a árvore de decisão com 79,73%;
- Acurácia: O melhor modelo para acurácia foi o KNN com 81,48%;
- Recall: O melhor modelo para Recall foi o Bernoulli com 84,24%;
Devido a natureza do problema proposto, a melhor métrica para classificação dos clientes é a precisão. Pois permite medir quantos valores positivos foram previstos de forma correta com um todo no nosso modelo, sem ser penalizado pela classificaçãos de valores negativos; Então o modelo escolhido para o problema será a Árvore de decisão.
As seguintes ferramentas foram usadas na construção do projeto:
Este projeto esta sobe a licença MIT.
Feito com ❤️ por Matheus Pereira 👋🏽 Entre em contato!