TibyrIA v2.1

Dashboard Técnico - Validação e Métricas

Primeiro modelo especializado em ódio anti-LGBTQIA+ em português brasileiro

Recall

92.86%

Detecta 93 de cada 100 casos de ódio

Accuracy

80.95%

Precisão geral do modelo

F1-Score

72.63%

Balanceamento precision/recall

Precision

59.63%

Casos classificados como ódio

🔬 Evolução dos Modelos: De BERT ao TibyrIA

A Jornada Técnica

1. BERT (Google, 2018)
O BERT (Bidirectional Encoder Representations from Transformers) foi criado pelo Google como modelo de linguagem geral, treinado em inglês. Ele revolucionou o processamento de linguagem natural ao entender contexto bidirecional, mas foi desenvolvido para o inglês e não captura especificidades do português brasileiro.

2. Tupi-BERT (FpOliveira, Brasil — hoje parceiro da Código Não Binário)
Pesquisadores brasileiros adaptaram o BERT para português brasileiro, criando o Tupi-BERT. Este modelo foi pré-treinado especificamente em português brasileiro e recebeu um "warm-start" em detecção de hate speech — ou seja, já começou com algum conhecimento sobre discurso de ódio antes do nosso fine-tuning. Isso o torna mais adequado para tarefas de moderação de conteúdo em português.

3. TibyrIA v2.1 (Código Não Binário)
Nós fazemos o fine-tuning especializado do Tupi-BERT em nosso dataset único de ódio anti-LGBTQIA+. Treinamos o modelo com 1.891 comentários anotados manualmente por nossa comunidade, usando Focal Loss para lidar com o desbalanceamento de classes. O resultado é um modelo que não apenas entende português brasileiro, mas reconhece especificamente as nuances da LGBTfobia — transfobia, lesbofobia, homofobia, bifobia — em suas manifestações interseccionais com racismo, misoginia e outras estruturas de poder.

Por que essa arquitetura?
Modelos pequenos (SLMs) como o Tupi-BERT (~110M parâmetros) são mais adequados para tarefas comunitárias: requerem menos infraestrutura, são mais rápidos, podem rodar em servidores próprios e não dependem de Big Tech. O TibyrIA demonstra que modelos especializados e contextualizados podem superar modelos genéricos gigantes em tarefas específicas.

📈 Evolução do Modelo

Recall

Primeira iteração

→

Recall

67%

Melhoria significativa

→

v2.1

Recall

92.86%

Versão atual validada

⚡ Desenvolvimento em 1 mês

3 iterações completas com melhoria validada: de 5% para 92.86% de recall

📊 Métricas de Performance

Threshold Otimizado

0.30 (otimizado para máximo recall)

Base de Treinamento

1.891 comentários anotados manualmente

Validação

Dataset completo: 12.102 comentários

Taxa de Anotação

1.891 de 12.102 comentários anotados (15.6%)

Interpretação

Apenas 1.56% dos casos de ódio podem escapar

📚 Dataset

12.102 Comentários Coletados

Primeiro dataset especializado em ódio anti-LGBTQIA+ em português brasileiro

Coletados de Instagram, TikTok e YouTube entre maio-agosto 2024

1.891 comentários anotados manualmente (15.6% do total)

Instagram

2.098 comentários (17.3%)

TikTok

6.271 comentários (51.8%)

YouTube

3.733 comentários (30.9%)

Licença

CC BY-NC-SA 4.0 (aberto e replicável)

⚙️ Arquitetura Técnica

Modelo Base

Tupi-BERT (FpOliveira/tupi-bert-base-portuguese-cased)

Arquitetura

BERT-base (~110M parâmetros, 12 camadas)

Fine-tuning

4 épocas, Learning Rate 1e-5, Focal Loss (α=0.75, γ=2.0)

Treinamento

MacBook M2, treinamento em 2-4 horas

Deploy

Hugging Face Spaces (ZeroGPU), inferência <100ms

Soberania

SLM brasileiro, licença CC-BY-NC-SA-4.0, não depende de Big Tech

🔗 Links e Repositórios

Modelo TibyrIA v2.1
huggingface.co/Veronyka/tybyria-v2.1

Dataset
huggingface.co/datasets/Veronyka/base-dados-odio-lgbtqia

Radar Social v2.1
huggingface.co/spaces/Veronyka/radar-social-lgbtqia-v2.1

Radar Legislativo
huggingface.co/spaces/Veronyka/radar-legislativo-lgbtqia

Treinamento
huggingface.co/spaces/Veronyka/treinamento-radar-social-lgbtqia-v2

Quiz Colaborativo
huggingface.co/spaces/Veronyka/quiz-radar-social-lgbtqia-v2

Análise
huggingface.co/spaces/Veronyka/radar-social-lgbtqia-v2-analise

Modelo Base Tupi-BERT
huggingface.co/FpOliveira/tupi-bert-base-portuguese-cased

🌍 Impacto e Expansão

Presença no Hugging Face

Desde outubro de 2025 (5 meses), nossas soluções de IA estão no ar em huggingface.co/Veronyka.

Recurso	Estatística	Link
Base base-dados-odio-lgbtqia	514 downloads	Veronyka/base-dados-odio-lgbtqia
Modelo tybyria-v2.1	297 downloads	Veronyka/tybyria-v2.1
Space radar-social-lgbtqia-v2.1	443 visualizações	radar-social-lgbtqia-v2.1
Space radar-legislativo-lgbtqia-v2.1	301 visualizações	radar-legislativo-lgbtqia-v2.1
Space radar-social-lgbtqia-v2	63 visualizações	radar-social-lgbtqia-v2
Space radar-social-lgbtqia-v1	448 visualizações	radar-social-lgbtqia-v1
radar-social-lgbtqia	66.585 visualizações (ver nota)	Veronyka/radar-social-lgbtqia

Nota: O dado do radar-social-lgbtqia pode incluir tráfego automatizado e requisições de sistema, não apenas usuários únicos. No conjunto, os números indicam presença pública contínua e uso recorrente das ferramentas.

Uso Real e Expansão

Londres: Aulas usando a ferramenta

São Paulo: Aulas usando a ferramenta

Turquia: Conversas em curso

Holanda: Conversas em curso