Código Não Binário

Primeiro dataset dedicado em português sobre ódio anti-LGBTQIA+

Lançamos uma base de dados pública e dedicada para estudo, monitoramento e enfrentamento do ódio contra pessoas LGBTQIA+ no Brasil. O conjunto reúne comentários coletados em redes sociais (Instagram, TikTok e YouTube) e um subconjunto anotado manualmente com categorias específicas (transfobia, homofobia, lesbofobia, bifobia, misgendering/deadnaming, incitação/ameaça, entre outras). É um recurso aberto para pesquisa, advocacy, jornalismo e desenvolvimento de IA responsável.

A base está disponível em português (pt-BR), licenciada em CC BY-NC-SA 4.0, com documentação de esquema, diretrizes de uso e estatísticas descritivas. O pacote inclui arquivos em CSV/Parquet, splits por plataforma e uma amostra anotada de referência (1.891 exemplos, 33 categorias) — além de um complemento “aumentado” para experimentos de treino. Priorizamos a anonimização, a minimização de dados pessoais e um guia de risco/mitigação para evitar usos indevidos.

Este é o primeiro dataset dedicado em português focado exclusivamente em LGBTfobia — feito para acelerar estudos, avaliações independentes, ações judiciais e o desenvolvimento de modelos de detecção com transparência e responsabilidade. Convidamos universidades, organizações e jornalistas a reutilizar, auditar e contribuir com novas amostras e revisões de rótulos.

Acesse e contribua

  • ???? Abrir o dataset na Hugging Face
  • ???? Guia de uso e esquema de rótulos (no README do repositório)
  • ???? Quer contribuir com dados ou curadoria? Envie uma solicitação pelo repositório


Como citar

Código Não Binário (2025). Base de dados de ódio LGBTQIA+ (pt-BR). Hugging Face Datasets. Disponível em: https://huggingface.co/datasets/Veronyka/base-dados-odio-lgbtqia. Licença: CC BY-NC-SA 4.0.

Uso responsável

Este dataset contém exemplos de linguagem violenta e discriminatória, publicados para fins de pesquisa e interesse público. Leia as diretrizes de risco/mitigação no repositório antes de usar em aplicações de monitoramento, moderação ou treino de modelos.


Descubra mais sobre Código Não Binário

Assine para receber nossas notícias mais recentes por e-mail.

Descubra mais sobre Código Não Binário

Assine agora para receber nossas novidades.

Continuar lendo...