Skip to content

Classification of Russian comments into toxic and non-toxic based on data from 2ch.

Notifications You must be signed in to change notification settings

morowenka/toxic_comments_classification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

toxic_comments_classification

NOTE: В ноутбуке содержатся нецензурные и оскорбительные слова. Такова была специфика задачи, я не хотел ни коим образом никого оскорбить. Все слова и выражения были использованы исключительно в целях исследования.

Задача

Бинарная классификация комментариев на русском языке.

Классы: 'токсичные', 'нетоксичные'.

Данные

Данные взяты с портала kaggle, способ их загрузки имеется в ноутбуке, никаких внешних данных, кроме токена kaggle (как его получить я также описал в ноутбуке), не понадобится. Ссылка на датасет.

Модели

Модели библиотеки scikit-learn:

  • Logistic Regression
  • SVM
  • SGDClassifier
  • Naive Bayes
  • Random Forest

Также были использованы 2 предобученные модели с портала Hugging Face:

  • SISmetanin
  • Skolkovo

Подробные результаты вы можете посмотреть в последнем разделе моего ноутбука.

About

Classification of Russian comments into toxic and non-toxic based on data from 2ch.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published