Skip to content

Compression algorithm based kernel perceptron using Jaccard's similitary

Notifications You must be signed in to change notification settings

mastanca/datos-tp-1c2015

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

43 Commits
 
 
 
 
 
 

Repository files navigation

WorldDomination-1C2015

======================================================================

ANUNCIOS

======================================================================

IDEAS QUE PARA INCORPORAR LO QUE VAMOS VIENDO AL TP

  • En vez de leer los archivos línea por línea, es recomendable cargarlos completos en memoria y operar ahí.

  • Para aplicar lo que vimos de archivos, podemos intentar separar los reviews de los IDs y calificaciones. Habría que pensar un buen esquema para hacerlo, pero debería ser más eficiente, ya que habría que realizar menos operaciones por línea.

  • Aplicar compresión. Cuando veamos compresión, podríamos comprimir los archivos de datos en el disco. Leer compreso y descomprimir debería ser más rápido que leer más bytes sin compresión de memoria secundaria.

======================================================================

HERRAMIENTAS QUE QUIZÁS SIRVAN

  • Word2Vec: Herramienta de Google, mencionada en Kaggle, útil para el análisis de sentimientos en texto. Valdría la pena investigarla más, aunque el enunciado del TP dice que no es necesario usarla.

  • Filtros Bayesianos Anti-Spam: están en la Wikipedia en inglés. La idea es que uno usa la fórmula de Bayes para entrenar al filtro con spam y con no-spam. Ni lo leí en realidad, solo relojeé un poco. Después lo leo bien y veo que le saco.

======================================================================

INFO ÚTIL

  • En Kaggle hay tutoriales y esas cosas. Podrían resultar útiles.

About

Compression algorithm based kernel perceptron using Jaccard's similitary

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages