DETECÇÃO DE SPAM ATRAVÉS DE APRENDIZADO DE MÁQUINA
Resumo
O spam é um ente nocivo que vem causando perdas tanto pessoais quanto financeiras desde o início da internet. Para pessoas o spam é geralmente um incomodo. Para empresas é sempre um custo, levando em consideração o desperdício de tempo dos funcionários e o espaço utilizado no armazenamento. O que levou o spam a perdurar por tanto tempo é a sua capacidade de adaptação. Essa é devido aos spammers, pessoas ou empresas que enviam spam, que estão continuamente aprimorando suas técnicas de envio e escrita de spam. Esse melhoramento continuo permite que os spammers estejam sempre um passo a frente dos sistemas de detecção. Devido a essa condição faz-se necessário a construção de novas de detecção. No momento a tecnologia que está mais atraindo a atenção tanto do mercado quando da academia, para o uso contra o spam, é o aprendizado de Máquina. O aprendizado de máquina é flexível, dados os parâmetros corretos, pode ser utilizado para a resolução de qualquer problema ou cenário. A adaptabilidade, característica que faz o spam tão duradouro, também é presente no aprendizado de máquina. Através do uso de suas técnicas é possível desenvolver um software que se adapte a novas situações. Assim uma vez codificado ele é capaz de resolver problemas na qual ele não foi previamente programado. Isso se dá através de treinamento. Em aprendizado de máquina, treinar o sistema significa inserir dados de exemplo, que o sistema usa para aprender novas situações. A estrutura dos dados e forma de aprendizado diferencia com base no método de aprendizado. Dentre os métodos de aprendizado encontrados em literatura, quando o foco é o spam, o mais encontrado é o aprendizado supervisionado. Essa técnica tem como base o a utilização de dados rotulados para treinamento. Esse tipo de dado já possuem um valor definido e seus valores foram previamente marcados em sua estrutura. Dados rotulados dão mais trabalho para captar devido a sua necessidade de estruturação, geralmente através de trabalho, em alguma parte, manual. Portanto a rotulação dos dados é o principal impedimento dessa abordagem.