NOTE: В ноутбуке содержатся нецензурные и оскорбительные слова. Такова была специфика задачи, я не хотел ни коим образом никого оскорбить. Все слова и выражения были использованы исключительно в целях исследования.
Бинарная классификация комментариев на русском языке.
Классы: 'токсичные', 'нетоксичные'.
Данные взяты с портала kaggle, способ их загрузки имеется в ноутбуке, никаких внешних данных, кроме токена kaggle (как его получить я также описал в ноутбуке), не понадобится. Ссылка на датасет.
Модели библиотеки scikit-learn:
- Logistic Regression
- SVM
- SGDClassifier
- Naive Bayes
- Random Forest
Также были использованы 2 предобученные модели с портала Hugging Face:
- SISmetanin
- Skolkovo
Подробные результаты вы можете посмотреть в последнем разделе моего ноутбука.