Obtendo e organizando os microdados do Censo Escolar


Nenhum dos grandes desafios da educação brasileira poderá ser encarado de forma eficaz se não conhecermos bem a realidade das escolas, dos educadores e, claro, dos estudantes em cada um dos municípios e localidades do país. Muits iniciativas governamentais e não-governamentais tem como objetivo acompanhamenhar o cenário educacional e, para todas elas, conhecer e usar os dados produzidos pelo Censo Escolar é fundamental para adquirir as informações necessárias para auxiliar e mobilizar as redes, instituições e seus atores. No sentido de ampliar o conhecimento sobre os dados do Censo Escolar começaremos nossa série de diálogos sobre bases educacionais desvendando a estrutura de seus microdados disponíveis publicamente.

O Censo Escolar é coordenado pelo Instituto Nacional de Estudos e Pesquisas Anísio Teixeira – INEP e realizado através de parceria com os estados e municípios. Sua estrutura de coleta é imensa e envolve desde secretários escolares a equipes e técnicos nas secretarias de educação municipais e estaduais. Mesmo com todo este trabalho são praticamente inexistentes os canais públicos de acesso a informação sobre a estrutura e as formas de consulta às suas bases educacionais. O próprio INEP só disponibiliza alguma informação sobre o assunto nos arquivos que acompanham os microdados. Em seu site não há tutorial ou qualquer referência ao significado de cada uma das variáveis usadas nas bases, de modo que se possa democratizar a exploração dos dados, principalmente, entre aqueles que não são da área de gestão educacional.

Os Microdados do Censo Escolar, possuem informações que vão desde 1995 a 2014 e estão disponíveis em formatos compactados ZIP ou RAR para qualquer pessoa fazer seu download:

http://portal.inep.gov.br/basica-levantamentos-acessar

Pensando nos diversos interesses em consultar esses microdados, Educadata.org buscou organizar e compartilhar diferentes estratégias para fazê-lo, levando sempre em consideração que também são diversas as habilidades daqueles que precisam obter e fazer uso deles.

1. Formatos dos arquivos

O INEP já experimentou pelo menos dois formatos para disponibilizar os arquivos, sendo, principalmente, os mostrados abaixo:

  • Arquivos em formato CSV que podem ser abertos por editores de textos, planilhas e programas específicos de estatística (em 2014 por exemplo)
  • Arquivos em formato SAS e SPSS que podem ser abertos apenas por programas de estatística (em 2013 e anos anteriores por exemplo)

a) Arquivos CSV

Nos arquivos “csv” os dados estão, normalmente, separado por algum caractere delimitador. Os delimitadores mais usados são a vírgula, o ponto-e-vírgula e o pipe, por isso, fique atento quando os programas não identificarem automaticamente o delimitador, pois você deverá informá-lo manualmente. Também é comum usar a primeira linha como cabeçalho, ou seja, incluir o nome de cada campo nela. Esses arquivos podem ser abertos pelos editores de texto mais simples (gedit, write, scratch, bloco de notas etc.), por planilhas eletrônicas (Calc, Excel, Gnumeric etc.) e por quase todos os programas especializados em tratamento estatístico. Em 2014 o INEP utilizou o delmitador “|”, conhecido como pipe, e incluiu na primeira linha os nomes dos campos.

b) Arquivos SAS e SPS

Estes são formatos de arquivos próprios para serem abertos nos sistemas SAS e SPSS, softwares apropriados para tratamento estatístico dos microdados. Os dados, no entanto, são todos armazenados em um arquivo de formato “txt” que, sem delimitadores, necessitam dos arquivos “input” para que seus campos sejam interpretados. Apesar de serem apropriadamente arquivos de softwares específicos Educadata.org irá mostrar como convertê-los para “csv” usando apenas um terminal de comandos no Linux. Até 2013 este era o formato usado nos microdados do Censo Escolar.

2. Pastas e arquivos dos microdados

Nas bases de 2014 os dados estão compactados em formato “rar” e, dentro deles, estão os arquivos de mesmo nome em formato “csv”.

DADOS 1,4G
DOCENTES_CO.rar 11M
DOCENTES_NORDESTE.rar 40M
DOCENTES_NORTE.rar 13M
DOCENTES_SUDESTE.rar 58M
DOCENTES_SUL.rar 24M
ESCOLAS.rar 9,9M
MATRICULA_CO.rar 82M
MATRICULA_NORDESTE.rar 365M
MATRICULA_NORTE.rar 116M
MATRICULA_SUDESTE.rar 450M
MATRICULA_SUL.rar 143M
TURMAS.rar 32M
LEIA-ME 1,6M
Anexos – Microdados 2014.xlsx 708K
Filtros Educacenso 2014.pdf 76K
LEIA-ME 2014.pdf 322K
Nota_Tecnica_11-2014_Calculo_Divulgacao_Idade.pdf 323K

Na pasta “LEIA-ME” você encontrará muitas informações sobre como usar os microdados para reproduzir localmente a maioria das sinopses nacionais divulgadas pelo INEP.

Nos anos anteriores, como já dissemos, as pastas e os arquivos eram voltados para os sistemas SPSS e SAS, mas a distribuição dos arquivos compactados pelo menos desde 2011 (até onde eu fui) seguem uma estrutura:

  • Matrícula
  • Docente
  • Turma
  • Escola

3. Explorando as bases com software livre

Um dos maiores desafios ao trabalhar com microdados é, sem dúvida, o tamanho dos arquivos. Em 2014, por exemplo, os dados foram agrupados por região do Brasil, o que rendeu 4,8 GB para o arquivo com a matrícula da Região Sudeste. Tanto para aqueles que irão fazer pesquisas bem abrangentes isso não quanto para os que desejam fazer estudos mais localizados esses não tamanhos fáceis de se manipular. Mas mesmo antes de jogar tudo em um software de estatística ou de banco de dados vale a pena conferir algumas dicas de linhas de comando que podem ser muito úteis para visualizar e segmentar grandes bases.

Aplicativos que rodam a partir de linhas de comandos é um dos bons diferenciais das distribuições Linux e podem ser usados a partir de um terminal (aquela telinha quase sempre preta). Vamos às dicas:

a) Visualização

head -1 MATRICULA_NORDESTE.CSV

O comando acima exibe todos os itens do cabeçalho. Nos microdados de 2014 obtemos todos os nomes dos campos usados. Se quiser exibir uma amostra dos dados amplie a visualiação, por exemplo, para 10 linhas:

head -10 MATRICULA_NORDESTE.CSV

Resultado:

Captura de tela de 2015-10-25 21:09:52

Outros comandos muito poderosos para visualizar os dados com muita precisão são o “grep”, o “sed” e o “cut” os quais utilizaremos em outro momento.

b) Consulta

awk -F'|' '{if ($70 == 23) print}' MATRICULA_NORDESTE.CSV | head -5

Captura de tela de 2015-10-25 21:26:11

Com o comando acima obteremos a lista dos 5 primeiros registros de matrícula das escolas do Ceará (em outro momento detalharei todas as variáveis e tipos de valor usados nas bases). Mas pelo tamanho e importância, vale a pena explicar melhor esse comando:

awk Nome do programa usado.
-F’|’ O “-F” define o delimitador, no caso, o “pipe” que está entre aspas simples. Assim, os campos e valores serão o conteúdo entre um delimitador e outro.
‘{if ($70 == 23) print}’ Script da condição que, em nosso exemplo, verifica se no 70º campo está inserido o valor 23, ou seja, o código do Estado do Ceará. O “print” irá mostrar todo o conteúdo de cada linha em que esta condição for verdadeira.
| head -5 Limita em 5 o número de registros mostrados.

c) Extração

awk -F'|' '{if ($70 == 23) print}' MATRICULA_NORDESTE.CSV > ceara.csv

O comando acima é muito similar ao anterior mas agora passará todos os registros de matrícula de alunos de escolas cearenses para dentro do arquivo que será criado com o nome “ceara.csv”. Para ajustar os dados às suas necessidades você também pode selecionar somente os campos que irá usar, como no exemplo abaixo:

awk -F'|' '{if ($70 == 23) print $2";"$62";"$63";"$69";"$71";"$74}' MATRICULA_NORDESTE.CSV > matricula_idade.csv

O comando acima nos trará, na mesma ordem, “código de matrícula”, “código da modalidade de ensino”, “código da etapa de ensino” etc., de todos os alunos com registro de matrícula no estado do Ceará, e armazenará no arquivo “matricula_ceara.csv”. Com esses dados será possível reunir apenas as variáveis que importam para, por exemplo, calcular a matrícula do estado por municípios e por escola.

E o que mais vem por aí?

Bem, este é o primeiro de uma série de textos em que faremos a exploração das principais bases educacionais brasileiras como o Censo Escolar, o ENEM e o SAEB. Nesse percursos aprenderemos mais sobre como obter, organizar e tratá-las, além de produzir os relatórios e análises básicos que, inclusive, estarão disponíveis aqui no site. Fique com a gente!