Entrevista a um Kaggle Grandmaster brasileiro
#2 Experiência pessoal, estratégias e dicas
Nessa segunda edição, quis trazer a visão de uma pessoa que tem bastante experiência em modelagem de dados para mostrar o que é preciso fazer para chegar lá. Então, nada melhor que ouvir sobre o seu percurso para ganhar inspiração para começar :)
Eu tomei conhecimento do Thiago Mantuani quando estava competindo para a competição Women in Data Science (WiDS), do inglês, Mulheres em Ciência de Dados. Na plataforma da competição, tem uma seção de códigos compartilhados, em que as pessoas podem publicar suas ideias no formato de cadernos. E, lá estava o caderno do Thiago, com ideias simples e elegantes, e que, quando combinadas, produziam uma ótima pontuação como base de referência.
As competições de programação em ciência de dados que dão nome ao título acontecem na plataforma chamada Kaggle. Aos competidores são atribuídos 5 níveis de contribuição em cada categoria: novato, contribuidor, especialista, mestre e grandmaster. E as categorias são: comentários, competições, código e conjunto de dados (datasets).
O Thiago é grandmaster na categoria código. Então, quer dizer que os seus códigos receberam muitos votos por introduzirem bem uma modelagem de um problema.
Oi Thiago,
Muito obrigada por ter aceitado participar dessa entrevista hoje.
Kaggle grandmaster é um dos títulos mais cobiçados na ciência de dados e aprendizado de máquina, parabéns!
Experiência pessoal
O que te motivou a participar de competições do Kaggle?
“Minha jornada no Kaggle começou há quase cinco anos, durante meu mestrado em sistemas inteligentes. A plataforma me foi apresentada através do curso e das lives do Mário Filho, e foi lá que tive meu primeiro contato com redes neurais, florestas aleatórias, SVM e outras técnicas de aprendizado de máquina. Inspirado por essas descobertas, comecei a explorar o Kaggle ativamente, especialmente nos últimos dois anos, quando intensifiquei minha participação em competições e a publicação de notebooks.
No Kaggle, percebi que os notebooks se dividem em três categorias principais: os visualmente atraentes, os que alcançam altas pontuações e os que oferecem explicações detalhadas. Minha abordagem se concentra nas duas últimas, buscando tanto o desempenho quanto a clareza na apresentação dos resultados.
As competições de "playground" do Kaggle, realizadas mensalmente, são uma excelente oportunidade para aprimorar habilidades e ganhar reconhecimento. Ao extrair insights valiosos e alcançar pontuações elevadas, é possível acumular pontos significativos na plataforma.”
O seu trabalho atual tem alguma interseção com o tema?
"Em meu trabalho atual, possuo mais de 12 anos de experiência em SQL. No entanto, minha expertise em modelagem e estatística foi desenvolvida principalmente durante meu mestrado e através de projetos pessoais."
Estratégias
Quantas submissões você geralmente faz por competição? E qual a carga horária você dedica por semana?
"Minha disponibilidade para o Kaggle varia bastante. Devido a compromissos familiares e profissionais, meu tempo é mais limitado do que antes. Atualmente, costumo realizar uma ou duas submissões por dia, ou até cinco por semana."
Você prefere participar sozinho ou em grupo?
"Ainda não tive a oportunidade de formar equipes no Kaggle, então minhas participações são geralmente individuais. Gostaria de conhecer mais pessoas na plataforma e explorar a colaboração em equipe."
Quais tipos de competições/problemas você prefere participar?
"Minha especialidade é dados tabulares. A visão computacional é uma área que ainda não domino. A disponibilidade de competições com medalhas para dados tabulares tem diminuído, o que impacta minha participação."
Dicas
Quais dicas você daria para quem está começando? E também que recursos você recomenda?
"O Kaggle é uma plataforma que gera opiniões polarizadas: há entusiastas e críticos. Os críticos argumentam que a limpeza prévia dos dados nas competições elimina grande parte do trabalho real de um profissional de dados. Discordo dessa visão. Na minha experiência, a coleta de dados é o principal desafio no mundo real, superando a etapa de limpeza.
No entanto, o Kaggle é uma ferramenta de aprendizado valiosa, especialmente para modelagem. A plataforma oferece uma rica fonte de conhecimento, com notebooks de alta qualidade e cursos básicos para iniciantes em Machine Learning. Para quem busca aprimorar suas habilidades, recomendo as competições "Playground", focadas em dados tabulares e com desafios mensais de classificação e regressão. A participação nessas competições é uma experiência enriquecedora e uma ótima maneira de aprender."
Foi isso por hoje. Espero que essa entrevista possa ter te dado insights valiosos sobre modelagem no geral e sobre tendências da plataforma Kaggle. Se você gostou do artigo, não esqueça de deixar um ❤️ . Até mais!