Lançamos uma base de dados pública e dedicada para estudo, monitoramento e enfrentamento do ódio contra pessoas LGBTQIA+ no Brasil. O conjunto reúne comentários coletados em redes sociais (Instagram, TikTok e YouTube) e um subconjunto anotado manualmente com categorias específicas (transfobia, homofobia, lesbofobia, bifobia, misgendering/deadnaming, incitação/ameaça, entre outras). É um recurso aberto para pesquisa, advocacy, jornalismo e desenvolvimento de IA responsável.
A base está disponível em português (pt-BR), licenciada em CC BY-NC-SA 4.0, com documentação de esquema, diretrizes de uso e estatísticas descritivas. O pacote inclui arquivos em CSV/Parquet, splits por plataforma e uma amostra anotada de referência (1.891 exemplos, 23 categorias de classificação (17 de ódio + 6 de emoji)) — além de um complemento “aumentado” para experimentos de treino. Priorizamos a anonimização, a minimização de dados pessoais e um guia de risco/mitigação para evitar usos indevidos.
Este é o primeiro dataset dedicado em português focado exclusivamente em LGBTfobia — feito para acelerar estudos, avaliações independentes, ações judiciais e o desenvolvimento de modelos de detecção com transparência e responsabilidade. Convidamos universidades, organizações e jornalistas a reutilizar, auditar e contribuir com novas amostras e revisões de rótulos.
Acesse e contribua
- Abrir o dataset na Hugging Face
- Guia de uso e esquema de rótulos (no README do repositório)
- Quer contribuir com dados ou curadoria? Envie uma solicitação pelo repositório
Como citar
Código Não Binário (2025). Base de dados de ódio LGBTQIA+ (pt-BR). Hugging Face Datasets. Disponível em: https://huggingface.co/datasets/Veronyka/base-dados-odio-lgbtqia. Licença: CC BY-NC-SA 4.0.
Uso responsável
Este dataset contém exemplos de linguagem violenta e discriminatória, publicados para fins de pesquisa e interesse público. Leia as diretrizes de risco/mitigação no repositório antes de usar em aplicações de monitoramento, moderação ou treino de modelos.
Veja mais sobre esse projeto
Este dataset é parte fundamental do ecossistema TybyrIA, desenvolvido pela Código Não Binário. Conheça os produtos desenvolvidos a partir dele:
- Radar Social LGBTQIA+ — Um dos produtos da TybyrIA, o primeiro modelo de IA especialista em ódio anti-LGBTQIA+ em português, treinado com este dataset
- Ação Civil Pública contra Big Tech — Ação jurídica que utiliza este dataset como evidência para responsabilizar plataformas digitais
- Radar Legislativo LGBTQIA+ — Ferramenta de monitoramento legislativo que utiliza a TybyrIA, treinada com este dataset
- Vem aí o relatório Anatomia de uma Onda de Ódio — Relatório que documenta o contexto da coleta de dados que formaram este dataset
Compartilhe isso:
- Clique para imprimir(abre em nova janela) Imprimir
- Clique para enviar um link por e-mail para um amigo(abre em nova janela) E-mail
- Clique para compartilhar no LinkedIn(abre em nova janela) LinkedIn
- Clique para compartilhar no Mastodon(abre em nova janela) Mastodon
- Clique para compartilhar no Bluesky(abre em nova janela) Bluesky
- Clique para compartilhar no Threads(abre em nova janela) Threads
- Clique para compartilhar no WhatsApp(abre em nova janela) WhatsApp
- Clique para compartilhar no Reddit(abre em nova janela) Reddit
- Clique para compartilhar no X(abre em nova janela) 18+
- Clique para compartilhar no Facebook(abre em nova janela) Facebook
Relacionado
Descubra mais sobre Código Não Binário
Assine para receber nossas notícias mais recentes por e-mail.