Skip to content

This repository is the implementation of CaTrBETO: Spanish Pre-Trained Model for Sentiment Classification in Twitter

License

Notifications You must be signed in to change notification settings

Daniel-Qubit220/CaTrBETO

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Spanish Pre-Trained CaTrBETO Model for Sentiment Classification in Twitter

Washington Pijal, Arianna Armijos, Jose Llumiquinga, Sebastían Lalvay, Steven Allauca, Erick Cuenca


GitHub Stars visitors google colab logo

This repository is the implementation of the manuscript Spanish Pre-Trained CaTrBETO Model for Sentiment Classification in Twitter

Arch Diagram

The proposed architecture of the CaTrBETO for Spanish sentiment classification of tweets consists of 4 steps. 1) Getting a multimodal dataset including images (Tweets are all in Spanish.), 2) Applying a caption transformer (CaTr) to the images, 3) Obtaining auxiliary sentences, and 4) Classifying the sentiment of the tweet using the BETO technique.

Running The Code

Data

The database used in this paper can be found in the data/ folder. The images are unnecessary to run the code, but they can be found here. Due to the Twitter API policies, we do not provide the tweets' text. Instead, we give the Tweet IDs to hydrate them. Replace the tweet ID in column #3 String with the tweet's text (remember that the tweet must be clean, without icons or links, just the text). To get the text, use the following link https://twitter.com/i/web/status/XXXXXXXXX. Replace XXXXXXX with the Tweet ID

Generating Captions

The captions for replicating the results are already in the data/ folder. However, the caption transformer can be found in the CATR repository. Once the captions are gotten, run GoogleTranslateAjaxAPI.py.

Training & Evaluation

To train and evaluate the CaTrBETO go to CaTrBETO_Train.py and define the correct paths to the data/ directory in the following lines.

train_tsv = "/path/to/tsv/file"
dev_tsv = "/path/to/tsv/file"
test_tsv = "/path/to/tsv/file"
captions_json = "/path/to/JSON/file"

Results

All the tweets are in Spanish

Tweet Target Label Prediction Label-Spanish Prediction-Spanish
Me siento orgulloso de comunicar que, el día de mañana he sido invitado a la comisión de seguridad de la @AsambleaEcuador con la finalidad de exponer propuestas de reforma, sobre la crisis carcelaria que vive el país. El cambio se logra aportando todos. #crisiscarcelaria crisiscarcelaria 2 2 positivo positivo
Y así los hubieran atrapado, seguro los habrían soltado por falta de leyes más estrictas! Cada vez que llamamos a la @PoliciaEcuador y no atienden siempre se excusan diciendo que los patrulleros ya no se abastecen solo con el UPC de este sector.#Inseguridad #Tumbaco #puembo Inseguridad 1 0 neutral negativo
#Historiasdelacomunidad Hay sectores que han permanecido en el abandono según indican los habitantes de varios puntos de la ciudad. La #inseguridad es preocupante pues la #delincuencia no permite a los ciudadanos circular con tranquilidad. Solicitan más resguardo policial delincuencia 0 0 negativo negativo
#Inseguridad Asaltaron las cabinas de cobro en el peaje en la Vía al Pan... 6 delincuentes a bordo de una furgoneta color blanco irrumpieron en el lugar con sus armas de fuego y hasta tenían un combo para destrozar los vidrios... No se conoce monto del botín. Noticia en proceso. Inseguridad 0 0 negativo negativo
Cerrada la vía a Daule a la altura de la #PenitenciariaDelLitoral en #Guayaquil. #SucreEnLaNoticia PenitenciariaDelLitoral 1 1 neutral neutral
Encuentran a un privado de libertad ahorcado. La Policía comienza el conteo de fallecidos por los amotinamientos. #CrisisCarcelaria CrisisCarcelaria 0 0 negativo negativo

Licence

Attribution-NonCommercial-ShareAlike 4.0 International

About

This repository is the implementation of CaTrBETO: Spanish Pre-Trained Model for Sentiment Classification in Twitter

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages