Investigadores usam machine learning na classificação de dentes de dinossáurios terópodes

O estudo “Enhancing the classification of isolated theropod teeth using machine learning: a comparative study”, liderado pela aluna de doutoramento da Faculdade de Ciências da Universidade de Lisboa (CIÊNCIAS ULisboa), Carolina S. Marques, publicado recentemente na revista PeerJ, vem demonstrar que as técnicas mais avançadas de machine learning são mais precisas na classificação de dentes isolados de dinossáurios terópodes, o que representa um avanço significativo na identificação dos diferentes espécies.
A classificação de dentes isolados de dinossáurios terópodes sempre representou um grande desafio para os paleontólogos. A semelhança morfológica entre diferentes espécies e o registo fragmentado tornam este processo ainda mais complexo.
Os métodos tradicionais baseados em análises morfométricas, como, por exemplo, análises discriminantes e de componentes principais, têm sido amplamente utilizados, contudo apresentam diversas limitações devido aos seus pressupostos, como a linearidade dos dados que raramente se verificam nas variáveis analisadas.
Nos últimos anos, abordagens inovadoras com base em modelos de machine learning têm apresentado resultados promissores. Neste contexto, o estudo recentemente publicado explorou o uso destas ferramentas para melhorar a classificação taxonómica de dentes de terópodes, comparando diferentes modelos e utilizando também diversas estratégias de normalização de dados e técnicas para lidar com a sub-representação de alguns géneros (oversampling).
Além das metodologias tradicionais, também foram testados modelos ainda pouco explorados em Paleontologia (incluindo redes neuronais e random forest).
Partindo desta metodologia, o estudo demonstrou que as técnicas de machine learning são mais precisas na classificação de dentes isolados de dinossáurios terópodes e não dependem da normalização das variáveis nem da utilização de oversampling. A investigação propõe também um guia para a aplicação destes modelos a novos dados, facilitando futuras análises comparativas.
“Com estes modelos conseguimos prever uma classificação ao nível do género (37 géneros) e a nível taxonómico superior (23 grupos). Passamos então a conseguir classificar os diferentes dentes nestes grupos, sendo que alguns exemplos de classificação a nível do género ultrapassam os 90% de casos corretamente previstos no conjunto de teste, como, por exemplo, os dentes mesiais do Ceratosaurus, e os dentes laterais de Tyrannosaurus”, explica Carolina S. Marques, investigadora-líder responsável pelo estudo, citada em comunicado.
Os modelos treinados e o código desenvolvido estão disponíveis para que possam ser utilizados na classificação de novos exemplares, promovendo a reprodutibilidade das análises.
O estudo foi liderado pela aluna de doutoramento Carolina S. Marques, do Centro de Estatística e Aplicações da Universidade de Lisboa (CEAUL), que faz parte da Faculdade de Ciências da ULisboa, em colaboração com Vanda Santos e Elisabete Malafaia, do Instituto Dom Luiz, Emmanuel Dufourq, do African Institute for Mathematical Sciences, e Soraia Pereira também do CEAUL.
Para mais informações pode consultar o estudo na íntegra AQUI.