Wybór i implementacja modelu AI

Opis:

Do zadania klasyfikacji tekstu wybrano model BERT (Bidirectional Encoder Representations from Transformers) z biblioteki transformers. Jest to model językowy bazujący na architekturze transformera, który umożliwia rozumienie kontekstu słów w sposób dwukierunkowy.

W projekcie wykorzystano wersję modelu z repozytorium distilbert-base-uncased, który został załadowany z wykorzystaniem AutoModelForSequenceClassification. Liczba klas została automatycznie dostosowana na podstawie unikalnych etykiet w danych.

Implementacja obejmowała:

Wczytanie i wstępne przetworzenie danych (czyszczenie, kodowanie etykiet),
Inicjalizację modelu z odpowiednią liczbą klas wyjściowych,
Konfigurację parametrów treningowych, takich jak liczba epok, batch size, czy strategia logowania i zapisywania modelu,
Przeprowadzenie treningu z użyciem Trainer, który automatycznie obsługuje ewaluację, zapis modelu i tokenizatora.

Oczekiwany wynik:

Zbudowany i przetestowany model klasyfikujący dane tekstowe, gotowy do oceny na zbiorze testowym. Model oraz tokenizer są zapisane na dysku w formacie kompatybilnym z Hugging Face Transformers i gotowe do użycia w środowisku produkcyjnym.