Dashboard Técnico - Validação e Métricas
Primeiro modelo especializado em ódio anti-LGBTQIA+ em português brasileiro
1. BERT (Google, 2018)
O BERT (Bidirectional Encoder Representations from Transformers) foi criado pelo Google como modelo de linguagem geral, treinado em inglês. Ele revolucionou o processamento de linguagem natural ao entender contexto bidirecional, mas foi desenvolvido para o inglês e não captura especificidades do português brasileiro.
2. Tupi-BERT (FpOliveira, Brasil)
Pesquisadores brasileiros adaptaram o BERT para português brasileiro, criando o Tupi-BERT. Este modelo foi pré-treinado especificamente em português brasileiro e recebeu um "warm-start" em detecção de hate speech — ou seja, já começou com algum conhecimento sobre discurso de ódio antes do nosso fine-tuning. Isso o torna mais adequado para tarefas de moderação de conteúdo em português.
3. TibyrIA v2.1 (Código Não Binário)
Nós fazemos o fine-tuning especializado do Tupi-BERT em nosso dataset único de ódio anti-LGBTQIA+. Treinamos o modelo com 1.891 comentários anotados manualmente por nossa comunidade, usando Focal Loss para lidar com o desbalanceamento de classes. O resultado é um modelo que não apenas entende português brasileiro, mas reconhece especificamente as nuances da LGBTfobia — transfobia, lesbofobia, homofobia, bifobia — em suas manifestações interseccionais com racismo, misoginia e outras estruturas de poder.
Por que essa arquitetura?
Modelos pequenos (SLMs) como o Tupi-BERT (~110M parâmetros) são mais adequados para tarefas comunitárias: requerem menos infraestrutura, são mais rápidos, podem rodar em servidores próprios e não dependem de Big Tech. O TibyrIA demonstra que modelos especializados e contextualizados podem superar modelos genéricos gigantes em tarefas específicas.
3 iterações completas com melhoria validada: de 5% para 92.86% de recall
Primeiro dataset especializado em ódio anti-LGBTQIA+ em português brasileiro
Coletados de Instagram, TikTok e YouTube entre maio-agosto 2024
1.891 comentários anotados manualmente (15.6% do total)
Londres: Aulas usando a ferramenta
São Paulo: Aulas usando a ferramenta
Turquia: Conversas em curso
Holanda: Conversas em curso