refactor tests directoryto root directory

add tests for model trainer on GPU and its workflow
KevKibe · Nov 15, 2024 · 5e782cc · 5e782cc
1 parent 1354b9b
commit 5e782cc
Show file tree

Hide file tree

Showing 16 changed files with 163 additions and 21 deletions.
diff --git a/.github/workflows/ruff.yaml → .github/workflows/lint_codebase.yaml b/.github/workflows/ruff.yaml → .github/workflows/lint_codebase.yaml
@@ -1,4 +1,4 @@
-name: Ruff formatting 
+name: Run Linting with Ruff on Multiple OS Environments
 
 on: [pull_request]
 

diff --git a/.github/workflows/training_tests.yaml b/.github/workflows/training_tests.yaml
@@ -44,4 +44,4 @@ jobs:
         env:
           HF_TOKEN: ${{ secrets.HF_TOKEN }}
           WANDB_TOKEN: ${{ secrets.WANDB_TOKEN }}
-        run: pytest -vv src/tests/test_audio_processor.py src/tests/test_data_prep.py src/tests/test_load_dataset.py
+        run: pytest -vv tests/test_audio_processor.py src/tests/test_data_prep.py src/tests/test_load_dataset.py
diff --git a/...ws/deployment.speech_inference_tests.yaml → .github/workflows/unit_test_deployment.yaml b/...ws/deployment.speech_inference_tests.yaml → .github/workflows/unit_test_deployment.yaml
@@ -44,4 +44,4 @@ jobs:
         env:
           HF_TOKEN: ${{ secrets.HF_TOKEN }}
           WANDB_TOKEN: ${{ secrets.WANDB_TOKEN }}
-        run: pytest -vv src/tests/test_model_optimization.py src/tests/test_transcription_pipeline.py
+        run: pytest -vv tests/test_model_optimization.py src/tests/test_transcription_pipeline.py
diff --git a/...b/workflows/training.model_prep_test.yaml → .github/workflows/unit_test_model_prep.yaml b/...b/workflows/training.model_prep_test.yaml → .github/workflows/unit_test_model_prep.yaml
@@ -44,4 +44,4 @@ jobs:
         env:
             HF_TOKEN: ${{ secrets.HF_TOKEN }}
             WANDB_TOKEN: ${{ secrets.WANDB_TOKEN }}
-        run: pytest -vv src/tests/test_model_prep.py
+        run: pytest -vv tests/test_model_prep.py
diff --git a/...rkflows/training.model_trainer_tests.yaml → ...orkflows/unit_test_model_trainer_cpu.yaml b/...rkflows/training.model_trainer_tests.yaml → ...orkflows/unit_test_model_trainer_cpu.yaml
@@ -1,4 +1,4 @@
-name: Test training.model_trainer Module.
+name: Test training.model_trainer Module on CPU
 
 on: [pull_request]
 
@@ -44,4 +44,4 @@ jobs:
         env:
           HF_TOKEN: ${{ secrets.HF_TOKEN }}
           WANDB_TOKEN: ${{ secrets.WANDB_TOKEN }}
-        run: pytest -vv src/tests/test_model_trainer.py
+        run: pytest -vv tests/test_model_trainer.py
diff --git a/.github/workflows/unit_test_model_trainer_gpu.yaml b/.github/workflows/unit_test_model_trainer_gpu.yaml
@@ -0,0 +1,27 @@
+name: Test training.model_trainer Module with GPU.
+
+on: [pull_request]
+
+jobs:
+  run_kaggle_script_action:
+    runs-on: ubuntu-latest
+
+    steps:
+      - name: Checkout Repository
+        uses: actions/checkout@v3
+
+      - name: Execute Tests with GPU Support
+        uses: KevKibe/kaggle-script-action@v1.0.1
+        env:
+          HF_TOKEN: ${{ secrets.HF_TOKEN }}
+          WANDB_TOKEN: ${{ secrets.WANDB_TOKEN }}
+        with:
+          username: ${{ secrets.KAGGLE_USERNAME }}
+          key: ${{ secrets.KAGGLE_KEY }}
+          title: "Test PEFT Finetuning"
+          custom_script: |
+            pytest -vv tests/test_model_trainer.py
+          enable_internet: true
+          enable_gpu: true
+          enable_tpu: false
+          sleep_time: 60
diff --git a/src/tests/__init__.py → tests/__init__.py b/src/tests/__init__.py → tests/__init__.py
diff --git a/src/tests/samples_jfk.wav → tests/samples_jfk.wav b/src/tests/samples_jfk.wav → tests/samples_jfk.wav
diff --git a/src/tests/test_audio_processor.py → tests/test_audio_processor.py b/src/tests/test_audio_processor.py → tests/test_audio_processor.py
@@ -1,7 +1,7 @@
 import unittest
-from training.audio_data_processor import AudioDataProcessor
-from training.whisper_model_prep import WhisperModelPrep
-from training.load_data import Dataset
+from src.training.audio_data_processor import AudioDataProcessor
+from src.training.whisper_model_prep import WhisperModelPrep
+from src.training.load_data import Dataset
 import os
 from dotenv import load_dotenv
 load_dotenv()

diff --git a/src/tests/test_data_prep.py → tests/test_data_prep.py b/src/tests/test_data_prep.py → tests/test_data_prep.py
@@ -1,8 +1,8 @@
 import unittest
 # from datasets import Dataset
-from training.data_prep import DataPrep
-from training.load_data import Dataset
-from training.whisper_model_prep import WhisperModelPrep
+from src.training.data_prep import DataPrep
+from src.training.load_data import Dataset
+from src.training.whisper_model_prep import WhisperModelPrep
 from datasets import IterableDataset
 import os
 from dotenv import load_dotenv

diff --git a/src/tests/test_load_dataset.py → tests/test_load_dataset.py b/src/tests/test_load_dataset.py → tests/test_load_dataset.py
@@ -1,5 +1,5 @@
 import unittest
-from training.load_data import Dataset
+from src.training.load_data import Dataset
 import os
 from dotenv import load_dotenv
 load_dotenv()

diff --git a/src/tests/test_model_optimization.py → tests/test_model_optimization.py b/src/tests/test_model_optimization.py → tests/test_model_optimization.py
@@ -1,5 +1,5 @@
 import unittest
-from deployment.speech_inference import ModelOptimization 
+from src.deployment.speech_inference import ModelOptimization
 import torch
 import os
 from deployment.faster_whisper.asr import FasterWhisperPipeline

diff --git a/src/tests/test_model_prep.py → tests/test_model_prep.py b/src/tests/test_model_prep.py → tests/test_model_prep.py
@@ -1,5 +1,5 @@
 import unittest
-from training.whisper_model_prep import WhisperModelPrep
+from src.training.whisper_model_prep import WhisperModelPrep
 from transformers import WhisperFeatureExtractor, WhisperTokenizer, WhisperProcessor, WhisperForConditionalGeneration
 
 class TestDatasetManager(unittest.TestCase):

diff --git a/src/tests/test_model_trainer.py → tests/test_model_trainer.py b/src/tests/test_model_trainer.py → tests/test_model_trainer.py
@@ -1,6 +1,6 @@
 import unittest
-from training.model_trainer import Trainer
-from training.data_prep import DataPrep
+from src.training.model_trainer import Trainer
+from src.training.data_prep import DataPrep
 import os
 from dotenv import load_dotenv
 load_dotenv()
@@ -47,7 +47,7 @@ def setUp(self) -> None:
             tokenizer=tokenizer,
             wandb_api_key=os.environ.get("WANDB_TOKEN"),
             use_peft=False,
-            processing_task="translate"
+            processing_task="transcribe"
         )
         self.trainer_batch = Trainer(
             language =["af"],
@@ -60,7 +60,7 @@ def setUp(self) -> None:
             tokenizer=tokenizer,
             wandb_api_key="e0fda284061622e0f7858d6c684281d48fa05ecf",
             use_peft=False,
-            processing_task="translate"
+            processing_task="transcribe"
         )
 
         return super().setUp()

diff --git a/tests/test_model_trainer_gpu.py b/tests/test_model_trainer_gpu.py
@@ -0,0 +1,115 @@
+import unittest
+from src.training.model_trainer import Trainer
+from src.training.data_prep import DataPrep
+import os
+from dotenv import load_dotenv
+load_dotenv()
+
+class TestTrainerManager(unittest.TestCase):
+    """Test cases for the Trainer class."""
+
+    def setUp(self) -> None:
+        # Common setup for both test cases
+        self.model_id = "openai/whisper-tiny"
+        process = DataPrep(
+            huggingface_token=os.environ.get("HF_TOKEN"),
+            dataset_name="mozilla-foundation/common_voice_16_1",
+            language_abbr=["af"],
+            model_id=self.model_id,
+            processing_task="transcribe",
+            use_peft=True,
+        )
+        tokenizer, feature_extractor, feature_processor, model = process.prepare_model()
+
+        # Load datasets
+        self.dataset_streaming = process.load_dataset(
+            feature_extractor, tokenizer, feature_processor, streaming=True,
+            train_num_samples=10, test_num_samples=10
+        )
+        self.dataset_batch = process.load_dataset(
+            feature_extractor, tokenizer, feature_processor, streaming=False,
+            train_num_samples=10, test_num_samples=10
+        )
+
+        # Check if train/test samples exist in both streaming and batch datasets
+        self._validate_dataset(self.dataset_streaming, "streaming")
+        self._validate_dataset(self.dataset_batch, "batch")
+
+        # Set up trainers for both streaming and batch datasets
+        self.trainer_streaming = Trainer(
+            language=["af"],
+            huggingface_token=os.environ.get("HF_TOKEN"),
+            model_id=self.model_id,
+            dataset=self.dataset_streaming,
+            model=model,
+            feature_processor=feature_processor,
+            feature_extractor=feature_extractor,
+            tokenizer=tokenizer,
+            wandb_api_key=os.environ.get("WANDB_TOKEN"),
+            use_peft=False,
+            processing_task="transcribe"
+        )
+        self.trainer_batch = Trainer(
+            language =["af"],
+            huggingface_token="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",
+            model_id=self.model_id,
+            dataset=self.dataset_batch,
+            model=model,
+            feature_processor=feature_processor,
+            feature_extractor=feature_extractor,
+            tokenizer=tokenizer,
+            wandb_api_key="e0fda284061622e0f7858d6c684281d48fa05ecf",
+            use_peft=False,
+            processing_task="transcribe"
+        )
+
+        return super().setUp()
+
+    def _validate_dataset(self, dataset, dataset_type):
+        """Helper function to validate that datasets are not empty."""
+        has_train_sample = any(True for _ in dataset["train"])
+        assert has_train_sample, f"Train dataset for {dataset_type} is empty!"
+
+        has_test_sample = any(True for _ in dataset["test"])
+        assert has_test_sample, f"Test dataset for {dataset_type} is empty!"
+
+    def test_01_train_streaming(self):
+        """Test case for training with the streaming dataset."""
+        self.trainer_streaming.train(
+            max_steps=15,
+            learning_rate=1e-5,
+            save_steps=10,
+            eval_steps=10,
+            logging_steps=10,
+            output_dir=f"../{self.model_id}-finetuned",
+            report_to=None,
+            push_to_hub=False,
+            use_cpu=False,
+            optim="adamw_hf",
+            per_device_train_batch_size=4
+        )
+        # Check if output files exist after training
+        assert os.path.exists(f"../{self.model_id}-finetuned/preprocessor_config.json")
+        assert os.path.exists(f"../{self.model_id}-finetuned/tokenizer_config.json")
+
+    def test_02_train_batch(self):
+        """Test case for training with the batch dataset."""
+        self.trainer_batch.train(
+            max_steps=10,
+            learning_rate=1e-5,
+            save_steps=10,
+            eval_steps=10,
+            logging_steps=10,
+            output_dir=f"../{self.model_id}-finetuned",
+            report_to=None,
+            push_to_hub=False,
+            use_cpu=True,
+            optim="adamw_hf"
+        )
+        # Check if output files exist after training
+        assert os.path.exists(f"../{self.model_id}-finetuned/preprocessor_config.json")
+        assert os.path.exists(f"../{self.model_id}-finetuned/tokenizer_config.json")
+
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/src/tests/test_transcription_pipeline.py → tests/test_transcription_pipeline.py b/src/tests/test_transcription_pipeline.py → tests/test_transcription_pipeline.py
@@ -1,5 +1,5 @@
 import unittest
-from deployment.speech_inference import SpeechTranscriptionPipeline, ModelOptimization
+from src.deployment.speech_inference import SpeechTranscriptionPipeline, ModelOptimization
 import torch
 import os
 from dotenv import load_dotenv
@@ -24,7 +24,7 @@ def setUp(self):
 
         self.model_initialization = ModelOptimization(model_name=self.model_name)
 
-        audio_file_path = "src/tests/samples_jfk.wav"
+        audio_file_path = "./samples_jfk.wav"
         task = "transcribe"
 
         self.speech_transcription_pipeline = SpeechTranscriptionPipeline(