Estatística descritiva e distribuição estatística

Primeiro artigo de uma série sobre conceitos (bem) básicos de estatística aplicada a ciência de dados. Nesse é apresentado o conceito de estatística descritiva, distribuição estatística e o contexto no qual se desenvolverá a série.

Estatística foi um dos assuntos que mais tive dificuldade em engajar nos estudos, inclusive em compreender os conceitos mais básicos. Sempre que começava a estudar, parava, me dava uns dias ou semanas e voltava a estudar a mesma coisa. A cada nova tentativa eu sentia como se aquele tópico ganhasse algo de sentido. E assim vou me arrastando até… hoje… ainda que em novos temas.

Esse artigo é o primeiro de uma série sobre conceitos (bem) básicos de estatística aplicada a ciência de dados. Oh, é bem básico mesmo, se essa é uma das tuas primeiras tentativas, espero que a leitura seja massa. Mas, se tu já sabe alguma coisa, talvez não encontre aqui o está procurando.

Contexto

Nesse ano, 2022, celebramos 90 anos da conquista do voto feminino, ou seja, apenas em 1932 nós mulheres conquistamos com muita luta o direito ao voto. Naquele momento apenas as mulheres casadas com autorização do marido, viúvas ou solteiras com renda própria podiam votar. O sufrágio universal veio dois anos depois, em 1934, onde todas nós pudemos votar, sermos votadas e eleitas para cargos políticos. Por essa razão, vou apresentar conceitos básicos de estatística usando os dados abertos do Tribunal Superior Eleitoral, especificamente os dados das candidaturas para a Câmara dos Vereadores de Recife em 2020. É a esse conjunto de dados que vamos realizar nossas perguntas e respondê-las usando os conceitos apresentados ao longo dessa série, aplicados com a biblioteca Pandas.

Não precisa saber sobre Pandas para acompanhar a série, essa biblioteca será usada para demonstrar como o conceito apresentado pode ser aplicado a um dado real. Isso vai ajudar que ele faça sentido pra gente.

Estatística

A estatística nos ajuda a responder perguntas que queremos fazer aos dados. É uma área do conhecimento que utiliza um conjunto de técnicas para coletar, organizar, descrever, analisar e interpretá-los. Focaremos na estatística descritiva, que se dedica a sintetizar, organizar e descrever dados por meios de instrumentos como medidas, indicadores, gráficos e tabelas.

Distribuição estatística

A distribuição estatística demonstra a concentração de dados de uma variável. Isso é muito abstrado, né?!

Para esse conceito fazer sentido, vamos observar graficamente a distribuição estatística dos dados da coluna NR_IDADE_DATA_POSSE do conjunto de dados do TSE. Essa coluna representa a idade que as pessoas candidatas teriam na data de sua posse.

Fonte: Notebook “Estatística básica para Ciência de Dados”

Essa curva representa a distribuição estatística da coluna, é feita a partir da quantidade de vezes que cada idade aparece, ou seja, existem mais pessoas candidatas com 40 anos do que com 80.

Esse tipo de distribuição que o gráfico só tem 1 pico e a maior parte dos dados estão ao redor da média, chamamos de distribuição normal ou gaussiana simétrica. Existem outros tipos (binomial, poisson e uniforme), mas vamos falar só sobre a distribuição normal nessa série, pois é a que possui a variável que estamos analisando, NR_IDADE_DATA_POSSE.

Mais pra frente vamos falar sobre desvio padrão, mas deixa eu te adiantar uma coisa: a área dessa curva determina a probabilidade de ocorrer um evento, nesse caso o evento é a idade de uma pessoa candidata.

Fonte: Wikimedia

O próximo artigo é sobre medidas de tendência central (média, moda e mediana). Ainda que tu não tenha entendido nada do que escrevi aqui, sugiro que sigas lendo a série até o final, pois os assuntos se complementam e vão ajudar que na tua próxima tentativa de estudo o tema faça um pouquinho mais de sentido.

Se assistir vídeo aula te ajudar, dá uma olhadinha nessa sobre conceitos de estatística básica para ciência de dados, que fiz para a Sprint de Dados da PrograMaria.

Continue estudando

Outros artigos da série

Recomendações gerais

Ana Cecília Vieira Analista de dados especializada em abertura de dados governamentais. Entusiasta em dados abertos, código aberto e comunidades autogestinadas como instrumento para transformação social. Embaixadora do programa 'Ciência de Dados para Inovação Cívica' da Open Knowledge Brasil e podcaster no Pizza de Dados.

-----

Leia também: