This notebook is also available in Dev Community, both portuguese and english 🌎.
Check this notebook out in english 😉.
Este notebook também está disponível em forma de artigo no Dev Community, tanto em português como em inglês 🌎.
Confira esse notebook em português 😉.
Considerado como um marco da literatura gótica, o icônico livro Drácula, escrito em 1897 por Bram Stoker, desperta até hoje o fascínio das pessoas por todo o mundo. A fim de consolidar os conhecimentos iniciais do Apache Spark, desenvolveu-se este notebook para analisar as principais palavras mais comuns encontradas neste clássico livro.
O processo de análise consiste nas seguintes etapas:
- Download do livro Drácula, por Bram Stoker;
- Inicialização do Apache Spark e leitura do livro;
- Download das stopwords encontradas no idioma inglês;
- Extração individual das palavras em cada uma das linhas;
- Explodindo a lista de palavras em colunas no DataFrame;
- Transformando todas as palavras em minúsculas;
- Eliminação de pontuação;
- Remoção de valores nulos;
- Remoção das stopwords;
- Análise das palavras mais comuns;
A análise foi desenvolvida com a linguagem python, utilizando o Jupyter Notebook no Google Colab, assim como a biblioteca PySpark para a limpesa e análise dos dados.