EPSEVG RECUPERACIÓ DE LA INFORMACIÓ Curs 2023-24
En aquest repositori, trobareu tots els fitxers necessaris utilitzats i creats per l'assignatura de Recuperació de la Informació al Curs 2023-24 a la Universitat UPC a EPSEVG.
A continuació, es detallen els fitxers i projectes penjats en aquest repositori:
L'Activitat 1 del laboratori implica la configuració d'ElasticSearch i la creació d'un índex per a la col·lecció de documents 20_newsgroups. Realitzant consultes dins d'aquest índex, compten la freqüència de les paraules, i analitzen les dades segons les Lleis de Zipf i Heaps per comprendre la distribució de les paraules i l'expansió del vocabulari.
- Carpeta general: lab1
- Enunciat: 1REIN-lab
- Informe Final: REIN_Activitat1
Codis importants del laboratori:
- Aplicació llei heaps: llei_heaps.py
- Aplicació llei zipf: llei_zipf.py
A l'Activitat 2 de REIN, es configura l'ElasticSearch i modifiquen la tokenització i els filtres per observar com aquests canvis afecten la indexació d'un corpus de textos. Experimentant amb diferents tokens i filtres per a analitzar les variacions en el recompte i tipus de paraules indexades. També es calcula la similitud cosinus entre documents usant vectors tf-idf per a determinar la semblança entre textos.
- Carpeta general: lab2
- Enunciat: 2REIN-lab
- Informe Final: REIN_Activitat2
Codis importants del laboratori:
- Aplicació TF-IDF en documents: TFIDFViewer.py
A l'Activitat 3, desenvolupem "Vogue Inspector", un rastrejador web destinat a la pàgina de Vogue Espanya. Aquest rastrejador extreu dades d'articles de moda, com ara títols, contingut i enllaços relacionats, per analitzar tendències actuals. L'extensió del rastrejador permet navegar a través de sub-pàgines per recopilar informació més detallada, la qual s'emmagatzema en un fitxer JSON. Aquestes dades s'integren després amb ElasticSearch per a realitzar consultes.
- Carpeta general: lab3
- Enunciat: 3REIN-lab
- Informe Final: REIN_Activitat3
Codis importants del laboratori:
- Carpeta del rastrejador: vogue
A l'Activitat 4, utilitzem fitxers de text per construir una xarxa d’aeroports i vols, sobre la qual calculen el Page Rank, amb els fitxers airports.txt i routes.txt, creem un graf on els nodes són els aeroports (utilitzant codis IATA) i les arestes són les rutes, amb pesos que representen el nombre de rutes entre cada parella d’aeroports. A continuació, apliquen l'algorisme de PageRank per determinar la importància relativa de cada aeroport dins de la xarxa. Els resultats es presenten en una llista ordenada decreixent segons el valor de PageRank de cada aeroport. Utilitzen el codi proporcionat PageRank.py com a base per aquest càlcul.
Codis importants del laboratori:
- Script càlcul PageRank: PageRank.py
En l'Activitat 5 del laboratori de REIN, es realitzen experiments per determinar l'impacte del nombre de nuclis de processament en l'eficiència de l'execució d'scripts de MapReduce. Utilitzen la biblioteca mrjob de Python per processar dades i analitzar la relació entre els nuclis utilitzats i el temps d'execució, observant que no necessàriament més nuclis resulten en una major eficiència. En aquesta activitat amb la implementació correcta del script MRMarketBasketAnalysis.py de la lectura de parelles de dades i el càlcul de suport i confiança per a regles d'associació, utilitzant el fitxer groceries.csv . Com a resultat dels experiments, determinen que l'ús de 2 nuclis és el més òptim per a les seves proves.
- Carpeta general: lab5
- Enunciat: 5REIN-lab
- Informe Final: REIN_Activitat5
Codis importants del laboratori:
- Script càlcul Anàlisi del Súper: MRMarketBasketAnalysis.py
A l'Activitat 6 del laboratori de REIN, haviem de fer una presentació relacionada amb el temari de l'assignatura, el tema triat és l'estudi de la indexació en galeries de dispositius mòbils. La presentació aborda com la proliferació de fotos digitals ha creat la necessitat d'una organització més eficient. S'explora la transició de la indexació tradicional a mètodes avançats com el reconeixement facial i l'ús de la intel·ligència artificial (IA) i l'aprenentatge automàtic per millorar la cerca i organització de fotos. També es discuteixen les implicacions de la privacitat i seguretat que comporta l'emmagatzematge de dades personals i com les noves tecnologies poden afectar aquests aspectes. Conclou destacant els beneficis d'aquests avanços alhora que manté la consciència de la importància de la protecció de dades.
- Carpeta general: lab6
- Presentació: La indexació a les galeries dels dispositius mòbils
Aquest repositori ha estat creat per Mariona Farré i els laboratoris han estat creats amb la col·laboració de Marc Pérez
Gràcies per visitar aquest repositori :)