segunda-feira, 16 de janeiro de 2017

Tutorial: Regressão Quantilica no Stata (script e vídeo)

Nesse post e vídeo (o link está no final) eu mostro o básico da regressão quantílica no Stata. Estou supondo que você já tem o programa instalado no seu Stata. Caso não tenha, recomendo que leia o post "Como instalar um programa (.ado) no Stata que não está na SSC?", em que eu mostro como instalar os programas quando estão e quando não estão na SSC.

Eu não explicarei a matemática, nem o funcionamento geral da metodologia. Me limitarei a apresentar o passo a passo básico do Stata. Para entender a metodologia, recomendo que leiam o artigo original de Koenker e Basset (1978).

Para ver exemplos de algumas aplicações de utilização da metodologia, faço a propaganda de dois artigos meus, junto com meus coautores:
Avaliando Modelos Lineares de Value Relevance: Eles Captam o que Deveriam Captar?
O Estilo da Auditoria Afeta a Qualidade da Informação Contábil no Brasil?

O QUE É A REGRESSÃO QUANTÍLICA (RQ)

Resumidamente, é uma regressão parecida com a que nós costumamos usar (OLS, ou MQO), porém no lugar de ter como base a média condicional de uma variável dependente, dadas as variáveis independentes, a RQ não se baseia na média, mas em vários quantis.

Por que eu destaquei "média"? Em contabilidade e finanças nós temos muitos outliers e heterogeneidade alta, com muita frequência. Isso é bom, teoricamente, porque nos permite analisar casos específicos e efeitos diferentes. Porém empiricamente é ruim, porque atrapalha as nossas estimações.

Dessa forma, se eu tenho muito problema com outliers, eu posso utilizar a regressão quantílica na mediana, visto que a média é mais sensível aos outliers do que a mediana (OLS é baseado na média, então...).

Todavia, o uso para conter os efeitos dos outliers não é o mais bonito da regressão quantílica. Nos dois links dos meus artigos, que eu listei no início do post, nós apresentamos várias vantagens para o uso desse tipo de estimação. 

Mas enfatizo que para estudar sobre o assunto, a leitura é a fonte primária (Roger Koenker também tem livro sobre o assunto) ou outros autores e fontes especializados em econometria, como o livro básico de Brooks, que também fala da RQ, os artigos do Professor Luiz Renato Lima, entre outras fontes mais adequadas para isso do que meus artigos de contabilidade.

Segue um resumo do que colocamos nos artigos:
1.A regressão quantílica alivia alguns dos nossos problemas empíricos comuns em contabilidade:
(a) É menos sensível aos outliers – isso foi muito importante para o nosso artigo de qualidade da informação e auditoria porque quisemos ver os efeitos NOS outliers, que são as empresas extremas, com pouquíssimos e com muitos accruals anormais; 
(b) Podemos explorar muito melhor a heterogeneidade dos dados, pois a RQ evita a restrição de que os erros têm que ser identicamente distribuídos em toda a distribuição, ou seja, homocedásticos, permitindo-nos explorar a heterogeneidade das empresas; e 
(c) A RQ é robusta inclusive para distribuições com caudas muito pesadas e "não normais". É semiparamétrica.
2. A RQ é uma extensão dos modelos baseados na média condicional (eg OLS), servindo como um conjunto de modelos baseados no quantil condicional, permitindo analisar a distribuição toda e não focar apenas na média condicional.
3. Com essa metodologia, nós não precisamos quebrar a amostra simplesmente em subamostras, aumentando o viés de seleção amostral, mas usamos toda a amostra para estimar cada quantil. 
No caso do artigo de auditoria e qualidade da informação contábil, isso foi importante porque queríamos avaliar o efeito da orientação do auditor na qualidade da informação contábil reportada, tanto para empresas com alto, com baixo e com médio/mediano nível de qualidade informacional.
Se não fosse pela RQ, teríamos duas saídas: (a) quebrar a amostra em várias, aumentando o viés de seleção amostral e reduzindo o poder de teste (pela redução dos graus de liberdade), ou (b) usar variáveis dummies interagindo com as minhas variáveis de interesse, o que também reduziria o poder de teste (pelo aumento de regressores e redução dos graus de liberdade), além de que... trabalhar com muitas dummies e interação é muito chato - sempre aumenta o grau de multicolinearidade. 
4. Não precisamos perder informações utilizando tratamento de dados como winsorização e scale (ponderamento das variáveis). Como eu disse, outliers e heterogeneidade são bons para a RQ.

Nas considerações finais deste artigo nós deixamos outras ideias de aplicação da RQ, para quem tiver interesse.


COMO ESTIMAR A REGRESSÃO QUANTÍLICA NO STATA - Tutorial básico

Agora que já apresentei uma overview sobre o método, vamos ver como fazer isso no Stata (o GRETL também faz o mesmo trabalho, mas tenho preferido o Stata).

Como eu já apresentei dois artigos meus, com dados reais e do Brasil, vou fazer um exemplo com dados do próprio Stata (base 1978 automobile data). Didaticamente ficará melhor de entender para a maioria das pessoas.

Existem algumas formas diferentes de se estimar uma RQ no Stata. Para estimar apenas uma regressão quantílica, devemo usar o comando qreg. Se não definirmos o quantil, por padrão ele usa a mediana. 

Vamos aos comandos básicos e resumidos. No meu do-file (script), que você pode encontrar clicando aquieu comento cada comando e ainda apresento detalhes adicionais.

A) Estimação da RQ na mediana: qreg "Variável dependente" "variáveis independentes"
Exemplo: qreg mpg price rep78 foreign
B) Estimação da RQ em um quantil definido por vocêsqreg "Variável dependente" "variáveis independentes", quantile(."número do quantil")
Exemplo: qreg mpg price rep78 foreign, quantile(.10)
C) RQ simultânea: sqreg "Variável dependente" "variáveis independentes", quantile(."número do quantil" ."número do quantil" ."número do quantil")
Você pode inserir quantos quantis quiser estimar. Essa metodologia não usa a estimação original de Koenker, mas usar os erros padrão em bootstrap.
Exemplo: sqreg mpg price rep78 foreign, quantile(.10 .30 .50 .70 .90)
D) Após estimar uma regressão quantílica, você pode rodar o gráficogrqreg "Variável que quero gráfico", "opções que quiser inserir"
Exemplo: grqreg rep78, ci ols olsci qstep(.05)
Caso queira o gráfico de todas as variáveis de uma só vez, basta retirar a variável que você quer do comando - rep78, nesse caso, deveria ser retirada. Assim o programa criará o gráfico de todas as variáveis.
C) Para testar estatisticamente as diferenças entre os quantis, pode-se usar o teste de Wald: test [q"Número do quantil"]"Nome da variável"=[q"Número do quantil"]"Nome da variável"
Exemplo: test [q10]rep78=[q50]rep78=[q90]rep78

Lembrando que no do-file existem mais comandos e cada um desses está explicado da melhor forma que eu consegui, inclusive com interpretação das estatísticas. Clique aqui para acessá-lo.

Para quem preferir, abaixo está o vídeo-tutorial:

Nenhum comentário:

Postar um comentário

Related Posts Plugin for WordPress, Blogger...