🏳️‍🌈 TibyrIA v2.1

Dashboard Técnico - Validação e Métricas

Primeiro modelo especializado em ódio anti-LGBTQIA+ em português brasileiro

Recall
92.86%
Detecta 93 de cada 100 casos de ódio
Accuracy
80.95%
Precisão geral do modelo
F1-Score
72.63%
Balanceamento precision/recall
Precision
59.63%
Casos classificados como ódio

🔬 Evolução dos Modelos: De BERT ao TibyrIA

A Jornada Técnica

1. BERT (Google, 2018)
O BERT (Bidirectional Encoder Representations from Transformers) foi criado pelo Google como modelo de linguagem geral, treinado em inglês. Ele revolucionou o processamento de linguagem natural ao entender contexto bidirecional, mas foi desenvolvido para o inglês e não captura especificidades do português brasileiro.

2. Tupi-BERT (FpOliveira, Brasil)
Pesquisadores brasileiros adaptaram o BERT para português brasileiro, criando o Tupi-BERT. Este modelo foi pré-treinado especificamente em português brasileiro e recebeu um "warm-start" em detecção de hate speech — ou seja, já começou com algum conhecimento sobre discurso de ódio antes do nosso fine-tuning. Isso o torna mais adequado para tarefas de moderação de conteúdo em português.

3. TibyrIA v2.1 (Código Não Binário)
Nós fazemos o fine-tuning especializado do Tupi-BERT em nosso dataset único de ódio anti-LGBTQIA+. Treinamos o modelo com 1.891 comentários anotados manualmente por nossa comunidade, usando Focal Loss para lidar com o desbalanceamento de classes. O resultado é um modelo que não apenas entende português brasileiro, mas reconhece especificamente as nuances da LGBTfobia — transfobia, lesbofobia, homofobia, bifobia — em suas manifestações interseccionais com racismo, misoginia e outras estruturas de poder.

Por que essa arquitetura?
Modelos pequenos (SLMs) como o Tupi-BERT (~110M parâmetros) são mais adequados para tarefas comunitárias: requerem menos infraestrutura, são mais rápidos, podem rodar em servidores próprios e não dependem de Big Tech. O TibyrIA demonstra que modelos especializados e contextualizados podem superar modelos genéricos gigantes em tarefas específicas.

📈 Evolução do Modelo

v1
5%
Primeira iteração
v2
67%
Melhoria significativa
v2.1
92.86%
Versão atual validada

⚡ Desenvolvimento em 1 mês

3 iterações completas com melhoria validada: de 5% para 92.86% de recall

Gráfico de Evolução do Modelo

📊 Métricas de Performance

Gráfico de Métricas
Threshold Otimizado
0.30 (otimizado para máximo recall)
Base de Treinamento
1.891 comentários anotados manualmente
Validação
Dataset completo: 12.102 comentários
Taxa de Anotação
1.891 de 12.102 comentários anotados (15.6%)
Interpretação
Apenas 1.56% dos casos de ódio podem escapar

📚 Dataset

12.102 Comentários Coletados

Primeiro dataset especializado em ódio anti-LGBTQIA+ em português brasileiro

Coletados de Instagram, TikTok e YouTube entre maio-agosto 2024

1.891 comentários anotados manualmente (15.6% do total)

Distribuição por Plataforma
Instagram
2.098 comentários (17.3%)
TikTok
6.271 comentários (51.8%)
YouTube
3.733 comentários (30.9%)
Licença
CC BY-NC-SA 4.0 (aberto e replicável)

⚙️ Arquitetura Técnica

Pipeline Completo
Modelo Base
Tupi-BERT (FpOliveira/tupi-bert-base-portuguese-cased)
Arquitetura
BERT-base (~110M parâmetros, 12 camadas)
Fine-tuning
4 épocas, Learning Rate 1e-5, Focal Loss (α=0.75, γ=2.0)
Treinamento
MacBook M2, treinamento em 2-4 horas
Deploy
Hugging Face Spaces (ZeroGPU), inferência <100ms
Soberania
SLM brasileiro, licença CC-BY-NC-SA-4.0, não depende de Big Tech

🔗 Links e Repositórios

🌍 Impacto e Expansão

Uso Real e Expansão

Londres: Aulas usando a ferramenta

São Paulo: Aulas usando a ferramenta

Turquia: Conversas em curso

Holanda: Conversas em curso