Ciência de dados no mercado financeiro

Impacto, aplicações e desenvolvimento profissional

J. Renato Leripio

Kapitalo Investimentos

Quem sou eu?

Mestre em Economia (UFF) e Cientista de Dados

Minha experiência é com aplicação de métodos quantitativos e de ciência de dados em pesquisa macroeconômica.

Site: http://www.rleripio.com

Autor:

Disponível gratuitamente em: http://book.rleripio.com

Impacto: três eixos principais.


1. Novas fontes de informação.

2. Novos métodos de modelagem.

3. Automatização e escala.

1. Novas fontes de informação

Dados não-estruturados ganharam destaque durante a COVID e se tornaram parte relevante da análise desde então

1. Novas fontes de informação

Principais vantagens

  • Dados disponíveis em tempo (quase) real.

  • Em maior granularidade.

  • Porém, geralmente bagunçados!

  • Mas com algumas habilidades podemos extrair valor (veremos mais adiante).

  • Período COVID impulsionou a adoção destas fontes.

    • Existia uso anterior – Twitter, Google Trends, etc – mas ainda limitado.

1. Novas fontes de informação

Muitas publicações mostrando o valor desses dados

2. Novos métodos

Ferramentas mais poderosas para lidar com esses dados

  • Adoção de métodos como Random Forest, LASSO, XGBoost, etc.

  • Vantagens: seleção de variáveis, forma funcional flexível, não-linearidade e maior acurácia.

  • Ideal para grande conjunto de dados.

  • Softwares tradicionais (closed-source) demoram a incorporar estes métodos.

  • Novos métodos são desenvolvidos em open-source – Python e/ou R, geralmente (mais sobre isso adiante).

2. Novos métodos

Amostra de > 5.000 artigos na literatura de economia e finanças entre 1990 e 2021 contendo palavras selecionadas.

2. Novos métodos

Empresas relevantes criando ferramentas e disponibilizando publicamente através de linguagens open-source


3. Automatização e escala

Etapas de um projeto de análise de dados

3. Automatização e escala

Workflow tradicional cria alguns problemas potenciais

  • Uma série de copia e cola.

  • Capacidade de escalar mais limitada.

  • Problemas de reprodução são recorrentes.

3. Automatização e escala

Workflow open-source é mais flexível e escalável

  • Ferramentas open-source evoluem constantemente.

  • Menor intervenção manual nos processos.

3. Automatização e escala

Principais vantagens

  • Ambientes integrados criam comunicação direta e eficiente entre as tarefas.

  • Melhor gerenciamento de erros e debugging.

  • Permite Template task e reutilização de código.

  • Sem custo com aquisição de softwares.

  • Na prática: mais barato, menos erro operacional, aumento da cobertura de análise e velocidade.

  • LLM’s adicionam um novo eixo, em especial no processamento de dados não-estruturados e como assistente para o desenvolvimento de código.

Quais as implicaçoes para a área?

Um resumo

  • Melhores métodos para projeção e maior conjunto de dados disponível: aumento da acurácia.

  • Automatização: relatórios, projeções, revisões de cenário.

  • Escala: maior cobertura de países e granularidade dos indicadores.

  • Melhor comunicação das análises para quem consome.

Aplicações

Indicadores de alta frequência

Deu pistas valiosas para prever o tamanho da queda e da recuperação no período COVID

Indicadores de alta frequência

IPCA de perfumes é uma dor de cabeça para os analistas de inflação

Indicadores de alta frequência

A queda consistente dos preços de automóveis usados entre 2022 e 2023 não estava no radar do mercado

Indicadores de alta frequência

Projeção da receita de empresas pode ajudar a antecipar movimentos de mercado.

Indicadores de alta frequência

Principais características

  • Dados alternativos são mais eficazes como “avisos” em tempo real da direção da variável de interesse.

  • Tendem a performar melhor em períodos de alta volatilidade (Ex: COVID, recessões, etc).

  • O melhor uso é quando combinados com indicadores tradicionais.

  • Uma boa dose de tratamento e modelagem é fundamental para extrair sinal desses dados.

Desenvolvimento profissional

Formação e habilidades

Analista tradicional

  • Economia e finanças.

  • Estatística: descritiva e inferência.

  • Ajuste sazonal, deflacionar valores, filtros, etc.

  • Econometria (OLS, VAR, ARIMA).

Analista quantitativo

  • Engenheiros, Estatísticos, CS, etc.

  • Programação (Python/R).

  • Banco de dados relacional (SQL e afins).

  • Machine Learning.

  • Noções de DevOps: colocar projetos em produção.

  • Lista em crescimento: LLMs?

Mercado de trabalho atual

Grande parte das vagas requerem habilidades de programação

Devo fazer outra graduação?

Cada formação tem vantagens e desvantagens

  • Conhecimento de campo é relevante:
    • Economistas e administradores têm formação multi-disciplinar e treinamento para compreender e analisar temas no mercado financeiro.
    • Capacidade de formular perguntas.
  • Programação e habilidades quantitativas também:
    • Aqui a vantagem é dos engenheiros, CS e afins.
  • O mercado valoriza a combinação destas duas habilidades (a proporção depende da atuação).

Onde obter esse conhecimento?

A graduação e as pós stricto-sensu têm algumas dificuldades para se ajustar

  • Maior rigidez nos cursos de graduação, mestrado e doutorado.

  • Busca por profissionais não é fácil.

  • Risco de overfit educacional.

  • Possíveis saídas:

    • Eletivas de outros cursos.
    • Cursos lato-sensu.
    • Material online (inclusive de universidades estrangeiras).
    • Projetos próprios.

Bons materiais para quem tiver interesse

Disponíveis online gratuitamente

Obrigado! Perguntas?


Contato: leripiorenato@gmail.com

LinkedIn: J. Renato Leripio

Slides: http://coppead2024.rleripio.com