Primeiro dataset aberto em português sobre ódio anti-LGBTQIA+, com 12 mil registros de redes sociais para pesquisa, advocacy e IA.
Lançamos uma base de dados pública e dedicada para estudo, monitoramento e enfrentamento do ódio contra pessoas LGBTQIA+ no Brasil. O conjunto reúne comentários coletados em redes sociais (Instagram, TikTok e YouTube) e um subconjunto anotado manualmente com categorias específicas (transfobia, homofobia, lesbofobia, bifobia, misgendering/deadnaming, incitação/ameaça, entre outras). É um recurso aberto para pesquisa, advocacy, jornalismo e desenvolvimento de IA responsável.
A base está disponível em português (pt-BR), licenciada em CC BY-NC-SA 4.0, com documentação de esquema, diretrizes de uso e estatísticas descritivas. O pacote inclui arquivos em CSV/Parquet, splits por plataforma e uma amostra anotada de referência (1.891 exemplos, 23 categorias de classificação (17 de ódio + 6 de emoji)) — além de um complemento “aumentado” para experimentos de treino. Priorizamos a anonimização, a minimização de dados pessoais e um guia de risco/mitigação para evitar usos indevidos.
Este é o primeiro dataset dedicado em português focado exclusivamente em LGBTfobia — feito para acelerar estudos, avaliações independentes, ações judiciais e o desenvolvimento de modelos de detecção com transparência e responsabilidade. Convidamos universidades, organizações e jornalistas a reutilizar, auditar e contribuir com novas amostras e revisões de rótulos.
Acesse e contribua
- Abrir o dataset na Hugging Face
- Guia de uso e esquema de rótulos (no README do repositório)
- Quer contribuir com dados ou curadoria? Envie uma solicitação pelo repositório
Como citar
Código Não Binário (2025). Base de dados de ódio LGBTQIA+ (pt-BR). Hugging Face Datasets. Disponível em: https://huggingface.co/datasets/Veronyka/base-dados-odio-lgbtqia. Licença: CC BY-NC-SA 4.0.
Uso responsável
Este dataset contém exemplos de linguagem violenta e discriminatória, publicados para fins de pesquisa e interesse público. Leia as diretrizes de risco/mitigação no repositório antes de usar em aplicações de monitoramento, moderação ou treino de modelos.
Este dataset é parte fundamental do ecossistema TybyrIA, desenvolvido pela Código Não Binário.
Compartilhe isso:
- Imprimir(abre em nova janela) Imprimir
- Envie um link por e-mail para um amigo(abre em nova janela) E-mail
- Compartilhar no LinkedIn(abre em nova janela) LinkedIn
- Compartilhar no Mastodon(abre em nova janela) Mastodon
- Compartilhar no Bluesky(abre em nova janela) Bluesky
- Compartilhar no Threads(abre em nova janela) Threads
- Compartilhar no WhatsApp(abre em nova janela) WhatsApp
- Compartilhar no Reddit(abre em nova janela) Reddit
- Compartilhar no X(abre em nova janela) 18+
- Compartilhar no Facebook(abre em nova janela) Facebook
Relacionado
Descubra mais sobre Código Não Binário
Assine para receber nossas notícias mais recentes por e-mail.