Skip to content

The main objective of this project is to utilize machine learning using the LazyPredict library to predict values of a specific column. The primary focus is on minimizing the error index (RMSE) to achieve the highest possible accuracy in our predictions.

Notifications You must be signed in to change notification settings

JuanGouveia/ML-Project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ML-Project

Proyecto ML

Índice

  1. Descripción
  2. Objetivo principal
  3. Análisis
  4. Conclusiones

En este proyecto de machine learning, nos embarcaremos en una competición en Kaggle con el objetivo de minimizar el margen de error. La competición se centra en utilizar el 40% de los datos de un conjunto de datos dado. Nuestro trabajo consistirá en limpiar, mejorar y predecir resultados utilizando esta porción de datos. Posteriormente, subiremos estas predicciones a Kaggle y las combinaremos con el 60% restante del conjunto de datos para obtener resultados basados en el 100% de los datos.

Para empezar, organizaremos un DataFrame de acuerdo con nuestro objetivo. Lo dividiremos en dos partes: una sección de datos que emplearemos para entrenar nuestros modelos de machine learning y otra sección que usaremos para hacer predicciones mediante estos modelos. Una vez completada esta etapa, procederemos a cargar nuestros resultados en Kaggle para evaluar la calidad de nuestro trabajo.

COMPETICIÓN

Competición

Nuestra meta central radica en simplificar al máximo cada uno de los conjuntos de datos, con el fin de lograr predicciones más precisas. Para alcanzar este propósito, emplearemos métodos como la correlación para identificar las columnas más relevantes y aquellas que podrían no aportar beneficios sustanciales. Además, aplicaremos la técnica de codificación one-hot para transformar las variables categóricas en formatos numéricos adecuados. Con estos enfoques, buscamos optimizar el rendimiento de nuestros modelos de machine learning y obtener resultados más confiables.

En esta fase, nuestro enfoque se centra en la extracción y transformación de los datos para prepararlos para el proceso de aprendizaje automático.

DATASET

Dataset

Transformación

Durante esta etapa, hemos adquirido los archivos CSV proporcionados por la competición en Kaggle. A continuación, llevamos a cabo las siguientes tareas:

  • Acomodar y limpiar los datos para asegurarnos de que sean adecuados para su posterior análisis.

Arreglo

  • Eliminar columnas con alta correlación entre sí, con el objetivo de reducir la redundancia en los datos y mejorar la eficacia de los modelos.

Correlación

  • Aplicar la técnica de one-hot encoding para convertir las variables categóricas en formato numérico, lo que facilita su procesamiento por parte de los algoritmos de aprendizaje automático.

One-hot encoding

Estas acciones nos permiten establecer una base sólida para el análisis y el proceso de modelado subsiguiente.

Aplicación

Con el dataframe ya preparado, estamos listos para llevar a cabo el proceso de aprendizaje automático. Utilizaremos los lenguajes más efectivos recomendados por la librería LazyPredict para realizar este paso.

Lenguages

Carga

Tras completar el proceso de aprendizaje automático, llevamos a cabo la etapa de carga y presentación de los resultados en Kaggle. Utilizando los datos proporcionados, que abarcaron aproximadamente el 40% del conjunto total, inicialmente alcanzamos la posición 11 de 22 en la competición.

Posición 11

Sin embargo, una vez que los datos restantes fueron revelados y tomados en cuenta, logramos ascender al tercer lugar, logrando así subir al podio.

Posición 3

Este proyecto no solo nos permitió explorar las complejidades del análisis de datos y el aprendizaje automático, sino que también nos demostró cómo técnicas cuidadosas, herramientas efectivas y un enfoque metódico pueden generar resultados impactantes. Con cada fase, desde la preparación de los datos hasta la aplicación de modelos avanzados, hemos dado pasos sólidos hacia la comprensión y la mejora de datos para tomar decisiones informadas y precisas en futuros proyectos similares.

About

The main objective of this project is to utilize machine learning using the LazyPredict library to predict values of a specific column. The primary focus is on minimizing the error index (RMSE) to achieve the highest possible accuracy in our predictions.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published