Dashboard Técnico - Validação e Métricas
Primeiro modelo especializado em ódio anti-LGBTQIA+ em português brasileiro
1. BERT (Google, 2018)
O BERT (Bidirectional Encoder Representations from Transformers) foi criado pelo Google como modelo de linguagem geral, treinado em inglês. Ele revolucionou o processamento de linguagem natural ao entender contexto bidirecional, mas foi desenvolvido para o inglês e não captura especificidades do português brasileiro.
2. Tupi-BERT (FpOliveira, Brasil — hoje parceiro da Código Não Binário)
Pesquisadores brasileiros adaptaram o BERT para português brasileiro, criando o Tupi-BERT. Este modelo foi pré-treinado especificamente em português brasileiro e recebeu um "warm-start" em detecção de hate speech — ou seja, já começou com algum conhecimento sobre discurso de ódio antes do nosso fine-tuning. Isso o torna mais adequado para tarefas de moderação de conteúdo em português.
3. TibyrIA v2.1 (Código Não Binário)
Nós fazemos o fine-tuning especializado do Tupi-BERT em nosso dataset único de ódio anti-LGBTQIA+. Treinamos o modelo com 1.891 comentários anotados manualmente por nossa comunidade, usando Focal Loss para lidar com o desbalanceamento de classes. O resultado é um modelo que não apenas entende português brasileiro, mas reconhece especificamente as nuances da LGBTfobia — transfobia, lesbofobia, homofobia, bifobia — em suas manifestações interseccionais com racismo, misoginia e outras estruturas de poder.
Por que essa arquitetura?
Modelos pequenos (SLMs) como o Tupi-BERT (~110M parâmetros) são mais adequados para tarefas comunitárias: requerem menos infraestrutura, são mais rápidos, podem rodar em servidores próprios e não dependem de Big Tech. O TibyrIA demonstra que modelos especializados e contextualizados podem superar modelos genéricos gigantes em tarefas específicas.
3 iterações completas com melhoria validada: de 5% para 92.86% de recall
Primeiro dataset especializado em ódio anti-LGBTQIA+ em português brasileiro
Coletados de Instagram, TikTok e YouTube entre maio-agosto 2024
1.891 comentários anotados manualmente (15.6% do total)
Desde outubro de 2025 (5 meses), nossas soluções de IA estão no ar em huggingface.co/Veronyka.
| Recurso | Estatística | Link |
|---|---|---|
| Base base-dados-odio-lgbtqia | 514 downloads | Veronyka/base-dados-odio-lgbtqia |
| Modelo tybyria-v2.1 | 297 downloads | Veronyka/tybyria-v2.1 |
| Space radar-social-lgbtqia-v2.1 | 443 visualizações | radar-social-lgbtqia-v2.1 |
| Space radar-legislativo-lgbtqia-v2.1 | 301 visualizações | radar-legislativo-lgbtqia-v2.1 |
| Space radar-social-lgbtqia-v2 | 63 visualizações | radar-social-lgbtqia-v2 |
| Space radar-social-lgbtqia-v1 | 448 visualizações | radar-social-lgbtqia-v1 |
| radar-social-lgbtqia | 66.585 visualizações (ver nota) | Veronyka/radar-social-lgbtqia |
Nota: O dado do radar-social-lgbtqia pode incluir tráfego automatizado e requisições de sistema, não apenas usuários únicos. No conjunto, os números indicam presença pública contínua e uso recorrente das ferramentas.
Londres: Aulas usando a ferramenta
São Paulo: Aulas usando a ferramenta
Turquia: Conversas em curso
Holanda: Conversas em curso