Aquisição e coleta de dados

Neste momento deve-se reunir um dataset (conjunto de dados) suficiente, com qualidade e que seja confiável, a respeito do problema que se deseja resolver. Por exemplo, em um projeto que pretende criar um modelo para análise de sentimento, reunir um bom conjunto de textos de exemplos positivos e negativos.

Fonte: upklyak / Freepik.

Preparação dos dados

Boa parte do trabalho de Machine Learning se encontra nesta etapa, pois os dados serão verificados, transformados, resumidos, codificados etc. Neste momento, pode ser identificada a necessidade de conjuntos de dados maiores, dados podem ser removidos ou descartados devido à sua baixa qualidade. Finalmente, os dados devem ser separados de forma aleatória entre dataset de treino e teste, sendo que os dados de treino serão utilizados para treinar o modelo, enquanto os dados de teste são utilizados apenas para verificar a qualidade do modelo treinado.

Fonte: user8890203 / Freepik.

Seleção e treinamento de modelo

Nesta etapa um modelo (algoritmo) de machine learning deve ser selecionado de acordo com o objetivo pretendido, além do ajuste dos hiper parâmetros do modelo, treinamento do modelo com os dados de treino, realização de teste do modelo com os dados de teste, aferição do modelo através de métricas e armazenamento do modelo selecionado. Esta etapa pode ser executada várias vezes, até que os dados juntamente com o modelo alcancem os resultados desejados.

Fonte: vectorjuice / Freepik.

Deploy do modelo em produção

Após a seleção do modelo adequado, faz-se necessário publicar esse modelo em algum ambiente produtivo para que esteja acessível pelos sistemas e usuários que irão utilizá-lo. Para isso, é necessário avaliar a melhor infraestrutura adequada para atender as exigências de tempo de resposta, segurança, disponibilidade etc. É importante ressaltar que um modelo de Machine Learning nunca está pronto, mas em constante evolução. Logo, todo o processo vista até então deve ser repetido com certa frequência para que modelos melhores seja criados e substituídos em produção, considerando os novos dados que vão surgindo com o tempo.

Fonte: fullvector / Freepik.