Primeiro dataset em português sobre ódio anti-LGBTQIA+

Lançamos uma base de dados pública e dedicada para estudo, monitoramento e enfrentamento do ódio contra pessoas LGBTQIA+ no Brasil. O conjunto reúne comentários coletados em redes sociais (Instagram, TikTok e YouTube) e um subconjunto anotado manualmente com categorias específicas (transfobia, homofobia, lesbofobia, bifobia, misgendering/deadnaming, incitação/ameaça, entre outras). É um recurso aberto para pesquisa, advocacy, jornalismo e desenvolvimento de IA responsável.

A base está disponível em português (pt-BR), licenciada em CC BY-NC-SA 4.0, com documentação de esquema, diretrizes de uso e estatísticas descritivas. O pacote inclui arquivos em CSV/Parquet, splits por plataforma e uma amostra anotada de referência (1.891 exemplos, 23 categorias de classificação (17 de ódio + 6 de emoji)) — além de um complemento “aumentado” para experimentos de treino. Priorizamos a anonimização, a minimização de dados pessoais e um guia de risco/mitigação para evitar usos indevidos.

Este é o primeiro dataset dedicado em português focado exclusivamente em LGBTfobia — feito para acelerar estudos, avaliações independentes, ações judiciais e o desenvolvimento de modelos de detecção com transparência e responsabilidade. Convidamos universidades, organizações e jornalistas a reutilizar, auditar e contribuir com novas amostras e revisões de rótulos.

Acesse e contribua

Abrir o dataset na Hugging Face
Guia de uso e esquema de rótulos (no README do repositório)
Quer contribuir com dados ou curadoria? Envie uma solicitação pelo repositório

Como citar

Código Não Binário (2025). Base de dados de ódio LGBTQIA+ (pt-BR). Hugging Face Datasets. Disponível em: https://huggingface.co/datasets/Veronyka/base-dados-odio-lgbtqia. Licença: CC BY-NC-SA 4.0.

Uso responsável

Este dataset contém exemplos de linguagem violenta e discriminatória, publicados para fins de pesquisa e interesse público. Leia as diretrizes de risco/mitigação no repositório antes de usar em aplicações de monitoramento, moderação ou treino de modelos.

Veja mais sobre esse assunto

Este dataset é parte fundamental do ecossistema TybyrIA, desenvolvido pela Código Não Binário. Conheça os produtos desenvolvidos a partir dele:

Radar Social LGBTQIA+ — Um dos produtos da TybyrIA, o primeiro modelo de IA especialista em ódio anti-LGBTQIA+ em português, treinado com este dataset
Ação Civil Pública contra Big Tech — Ação jurídica que utiliza este dataset como evidência para responsabilizar plataformas digitais
Radar Legislativo LGBTQIA+ — Ferramenta de monitoramento legislativo que utiliza a TybyrIA, treinada com este dataset
Vem aí o relatório Anatomia de uma Onda de Ódio — Relatório que documenta o contexto da coleta de dados que formaram este dataset

Relacionado

Descubra mais sobre Código Não Binário

Assine para receber nossas notícias mais recentes por e-mail.

Primeiro dataset em português sobre ódio anti-LGBTQIA+

Acesse e contribua

Uso responsável

Compartilhe isso:

Relacionado

Descubra mais sobre Código Não Binário

Descubra mais sobre Código Não Binário