======================================================================
======================================================================
-
En vez de leer los archivos línea por línea, es recomendable cargarlos completos en memoria y operar ahí.
-
Para aplicar lo que vimos de archivos, podemos intentar separar los reviews de los IDs y calificaciones. Habría que pensar un buen esquema para hacerlo, pero debería ser más eficiente, ya que habría que realizar menos operaciones por línea.
-
Aplicar compresión. Cuando veamos compresión, podríamos comprimir los archivos de datos en el disco. Leer compreso y descomprimir debería ser más rápido que leer más bytes sin compresión de memoria secundaria.
======================================================================
-
Word2Vec: Herramienta de Google, mencionada en Kaggle, útil para el análisis de sentimientos en texto. Valdría la pena investigarla más, aunque el enunciado del TP dice que no es necesario usarla.
-
Filtros Bayesianos Anti-Spam: están en la Wikipedia en inglés. La idea es que uno usa la fórmula de Bayes para entrenar al filtro con spam y con no-spam. Ni lo leí en realidad, solo relojeé un poco. Después lo leo bien y veo que le saco.
======================================================================
- En Kaggle hay tutoriales y esas cosas. Podrían resultar útiles.