Resumo:
Com a evolução dos sistemas de informação, ocorreu uma grande expansão na geração de dados, sendo estes, em sua grande maioria, dados textuais. Foi tratada da Mineração de Textos, a qual consiste em encontrar informação útil em documentos não-estruturados. O Knowledge Discovery in Textbases, como também é conhecido, utiliza técnicas para tratamento, como remoção das palavras menos importantes do texto, dos prefixos e sufixos, entre outras técnicas de limpeza e recuperação de informações, para transformar a informação textual em dados estruturados e depois aplicar técnicas já consagradas de Mineração de Dados com o intuito de encontrar e classificar as informações que estavam escondidas em meio às bases textuais, para que estas estejam rapidamente disponíveis, auxiliando assim o processo de tomada de decisão. Neste contexto, foram realizados testes com bases de Corpos de Texto – notícias, e efetuar comparações entre o desempenho de alguns algoritmos de classificação automática, entre eles K-Nearest Neighbor, Support Vector Machine, Árvores de Decisão e Naives Bayes, que foram executados dentro da ferramenta Rapidminer 5. Como conclusão deste trabalho foi observado e apontado o algoritmo mais indicado para este tipo de dado textual, que foi o algoritmo K-NN.