Começando na versão 6.08 do sistema SAS, PROC EXPAND no software SASETS pode ser usado para fazer uma variedade de transformações de dados. Essas transformações incluem: leads, atrasos, médias móveis ponderadas e não ponderadas, somas móveis e somas cumulativas, para citar apenas algumas. Muitas novas transformações foram adicionadas na versão 6.12, incluindo especificações separadas para médias centradas e para trás. Essas novas transformações tornaram necessário modificar a sintaxe de algumas das transformações suportadas antes da Versão 6.12. Exemplos de como especificar a sintaxe para médias centradas e para trás movendo usando a versão 6.11 e anteriores e versão 6.12 e posterior são fornecidos abaixo. PROC EXPAND pode calcular uma média móvel centrada ou uma média móvel para trás. Uma média móvel centrada em 5 períodos é calculada pela média de um total de 5 valores consecutivos da série (o valor do período corrente para além dos dois valores imediatamente anteriores e dois valores imediatamente a seguir ao valor actual). Uma média de retrocesso de 5 períodos é calculada pela média do valor do período corrente com os valores dos 4 períodos imediatamente anteriores. A sintaxe a seguir ilustra como usar a especificação TRANSFORM (MOVAVE n) para calcular uma média móvel centrada em 5 períodos usando a Versão 6.11 ou anterior: Para calcular uma média móvel de retrocesso em período n utilizando a Versão 6.11 ou anterior, use TRANSFORM (MOVAVE) N LAG k) especificação, onde k (n-1) 2 se n é ímpar ou onde k (n-2) 2 se n é par. A sintaxe a seguir ilustra como usar a especificação TRANSFORM (CMOVAVE n) para calcular uma média móvel centrada em 5 períodos usando a Versão 6.12 ou mais recente. Mais tarde: A seguinte sintaxe semelhante ilustra como usar a especificação TRANSFORM (MOVAVE n) para calcular uma média de retrocesso de 5 períodos usando a Versão 6.12 ou posterior: Para obter mais informações, consulte Operações de Transformação no capítulo EXPAND do Guia do Usuário do SASETS. Se você não tiver acesso ao SASETS, poderá calcular uma média móvel na etapa DATA, conforme ilustrado neste programa de exemplo. Sistema Operacional e Informação de LiberaçãoComputar uma média móvel em SAS Este post foi gentilmente contribuído pelo DO Loop - ir lá para comentar e ler o post completo. Uma questão comum nos fóruns de discussão do SAS é como calcular uma média móvel no SAS. Este artigo mostra como usar PROC EXPAND e contém links para artigos que usam a etapa DATA ou macros para calcular médias móveis no SAS. Em um post anterior, eu expliquei como definir uma média móvel e forneci um exemplo, que é mostrado aqui. O gráfico é um gráfico de dispersão do preço de fechamento mensal para ações da IBM durante um período de 20 anos. As três curvas são médias móveis. A curva 8220MA8221 é uma média móvel de cinco pontos (à direita). A curva 8220WMA8221 é uma média móvel ponderada com pesos 1 a 5. (Quando calcular a média móvel ponderada no tempo t, o valor yt tem peso 5, o valor y t-1 tem peso 4, o valor y t-2 tem peso 3, e assim por diante). A curva 8220EWMA8221 é uma média móvel ponderada exponencialmente com o factor alisador alfa 0.3. Este artigo mostra como usar o procedimento EXPAND no software SASETS para calcular uma média móvel simples, uma média móvel ponderada e uma média móvel exponencialmente ponderada em SAS. Para uma visão geral do PROC EXPAND e seus muitos recursos, eu recomendo a leitura do artigo curto 8220Stupid Truques Humanos com PROC EXPAND8221 por David Cassell (2018). Como nem todos os clientes SAS têm uma licença para o software SASETS, há links no final deste artigo que mostram como calcular uma média móvel simples no SAS usando a etapa DATA. Criar um exemplo de série temporal Antes de poder calcular uma média móvel em SAS, é necessário ter dados. A seguinte chamada para PROC SORT cria um exemplo de série de tempo com 233 observações. Não há valores em falta. Os dados são classificados pela variável de tempo, T. A variável Y contém o preço de fechamento mensal das ações da IBM durante um período de 20 anos. Calcular uma média móvel em SAS usando PROC EXPAND PROC EXPAND calcula muitos tipos de médias móveis e outras estatísticas de rolagem, como desvios padrão de rolamento, correlações e somas acumuladas de quadrados. No procedimento, a instrução ID identifica a variável de tempo, T. Os dados devem ser classificados pela variável ID. A instrução CONVERT especifica os nomes das variáveis de entrada e de saída. A opção TRANSFORMOUT especifica o método e parâmetros que são usados para calcular as estatísticas de rolagem. O exemplo usa três instruções CONVERT: A primeira especifica que MA é uma variável de saída que é calculada como uma média móvel (para trás) que usa cinco valores de dados (k 5). A segunda instrução CONVERT especifica que WMA é uma variável de saída que é uma média móvel ponderada. Os pesos são automaticamente padronizados pelo procedimento, então a fórmula é WMA (t) (5 yt 4 y t-1 3 y t-2 2 y t-3 1 y t-4) 15. A terceira declaração CONVERT especifica que EWMA É uma variável de saída que é uma média móvel exponencialmente ponderada com parâmetro 0.3. Observe a opção METHODNONE na instrução PROC EXPAND. Por padrão, o procedimento EXPAND ajusta as curvas de spline cúbicas aos valores não-perdidos das variáveis. As opções METHODNONE garantem que os pontos de dados brutos são usados para calcular médias móveis, em vez de valores interpolados. Visualizando médias móveis Um uso importante de uma média móvel é sobrepor uma curva em um gráfico de dispersão dos dados brutos. Isso permite que você visualize tendências de curto prazo nos dados. A seguinte chamada para PROC SGPOT cria o gráfico na parte superior deste artigo: Para manter este artigo tão simples quanto possível, eu não discuti como lidar com dados em falta ao calcular médias móveis. Consulte a documentação para PROC EXPAND para várias questões relacionadas a dados em falta. Em particular, você pode usar a opção METHOD para especificar como interpolar valores ausentes. Você também pode usar opções de transformação para controlar como as médias móveis são definidas para os primeiros pontos de dados. Criar uma média móvel em SAS usando a etapa DATA Se você não tiver o software SASETS, as referências a seguir mostram como usar a etapa SAS DATA para calcular médias móveis simples usando a função LAG. A Base de Conhecimento da SAS fornece o artigo 8220Compute a média móvel de uma variável.8221 Preoral Vora (2008) compara a etapa DATA ao código PROC EXPAND no papel 8220Easy Rolling Statistics com PROC EXPAND.8221 Ron Cody inclui uma macro SAS em vários de seus Livros. Por exemplo, a Coleção Cody8217s de Tarefas de Programação SAS Populares e Como Controlá-las fornece uma macro chamada movingAve. Você pode fazer o download da macro como parte do 8220Example Code e Data8221 para o livro. A etapa DATA, que é projetada para lidar com uma observação de cada vez, não é a melhor ferramenta para computações de séries temporais, que naturalmente requerem observações múltiplas (atrasos e derivações). Em uma postagem no blog, vou mostrar como escrever funções SASIML que calculam médias móveis simples, ponderadas e ponderadas exponencialmente. A linguagem da matriz no PROC IML é mais fácil de trabalhar com cálculos que requerem acesso a vários pontos de tempo. ffTheDoLoopdyIl2AUoC8zA ffTheDoLoopdqj6IDK7rITs ffTheDoLoopicbsotKEf1zY: e5B0sfO55lA: gIN9vFwOqvQ ffTheDoLoopicbsotKEf1zY: e5B0sfO55lA: VsGLiPBpWU ffTheDoLoopicbsotKEf1zY: e5B0sfO55lA: F7zBnMyn0Lo ffTheDoLoopdl6gmwiTKsz0 13 Cada ponto no gráfico indica o valor da média móvel ponderada de modo uniforme para que subgrupo. A média móvel para o i-ésimo subgrupo (A i) é definida como onde w é a extensão, ou número de termos, da média móvel. Você pode especificar o span com a opção SPAN na instrução MACHART ou com o valor de SPAN em um conjunto de dados LIMITS. Linha central 13 Por padrão, a linha central em um gráfico de média móvel indica uma estimativa para, que é calculada como Se você especificar um valor conhecido () para, a linha central indica o valor de. 13 Você pode calcular os limites das seguintes maneiras: como um múltiplo especificado (k) do erro padrão de A i acima e abaixo da linha central. Os limites padrão são calculados com k 3 (estes são referidos como limites). Como limites de probabilidade definidos em termos de, uma probabilidade especificada de que A i exceda os limites A tabela a seguir apresenta as fórmulas para os limites: Tabela 21.19: Limites para Moving Average Gráfico 13 Estas fórmulas pressupõem que os dados são normalmente distribuídos. Se os valores padrão estiverem disponíveis para e, respectivamente, substitua e substitua na Tabela 21.19. Note que os limites variam com ambos n i e i. Se os tamanhos de amostra do subgrupo forem constantes (n i n), as fórmulas para os limites de controle simplificam para Referir a Montgomery (1996) para mais detalhes. Quando os tamanhos de amostra do subgrupo são constantes, a largura dos limites de controle para as primeiras w médias móveis diminui monotonicamente porque cada uma das primeiras w médias móveis inclui um termo a mais que a média móvel anterior. Se você especificar a opção ASYMPTOTIC, limites de controle constantes com os seguintes valores são exibidos: Para limites de probabilidade assintóticos, substitua k com nestas equações. Você pode exibir limites assintóticos especificando a opção ASYMPTOTIC. Você pode especificar parâmetros para os limites de média móvel da seguinte maneira: Especifique k com a opção SIGMAS ou com a variável SIGMAS em um conjunto de dados LIMITES. Especifique com a opção ALPHA ou com a variável ALPHA em um conjunto de dados LIMITS. Especifique um tamanho de amostra nominal constante para os limites de controle com a opção LIMITN ou com a variável LIMITN em um conjunto de dados LIMITS. Especifique w com a opção SPAN ou com a variável SPAN em um conjunto de dados LIMITS. Especifique com a opção MU0 ou com a variável MEAN em um conjunto de dados LIMITS. Especifique com a opção SIGMA0 ou com a variável STDDEV em um conjunto de dados LIMITES. Existem poucas diretrizes publicadas para a escolha do span w. Em algumas aplicações, a experiência prática pode determinar a escolha de w. Uma abordagem mais sistemática é escolher w considerando seu efeito sobre o comprimento médio de execução (o número esperado de pontos plotados antes que uma mudança seja detectada). Este efeito foi estudado por Roberts (1959), que utilizou métodos de simulação. Você pode usar Tabela 21.20 e Tabela 21.21 para encontrar uma combinação de k e w que produz uma ARL desejada para um processo em controle () e para um deslocamento especificado de. Por exemplo, suponha que você queira construir um gráfico de média móvel com dois lados com um ARL de 100 controlados e um ARL de 9 para detectar um deslocamento de. A Tabela 21.21 mostra que a combinação w3 e k2o produz uma ARL em controlo de 101,24 e uma ARL de 8,61 para. Observe que também é possível usar a Tabela 21.20 ea Tabela 21.21 para avaliar um gráfico de média móvel existente (consulte o Exemplo 21.2). O seguinte programa SAS calcula o comprimento de execução médio para um gráfico de média móvel de dois lados para várias alterações na média. Este programa pode ser adaptado para computar os comprimentos de corridas médias para várias combinações de k e w. No programa anterior, o tamanho do span w (SPAN) é 4 e as mudanças na média são introduzidas na variável (Y) após as primeiras 100 observações. O primeiro loop DO especifica deslocamentos de várias magnitudes, o segundo loop DO realiza 50000 simulações para cada deslocamento eo terceiro loop de DO conta o tempo de execução (TIME), ou seja, o número de amostras observadas antes dos sinais do gráfico de controle. Um limite superior grande (15000) para TIME é especificado para que o comprimento de execução não seja censurado. O programa pode ser generalizado para vários tamanhos de span, atribuindo um valor diferente para a variável SPAN e alterando a expressão para X adequadamente. Opcionalmente, você pode calcular o ARL para um gráfico unilateral alterando os limites, ou seja, x623sqrt (span). Esta foi a técnica utilizada para construir a Tabela 21.20 ea Tabela 21.21. Médias de Movimentação Médias de Movimento Com conjuntos de dados convencionais, o valor médio é frequentemente o primeiro, e um dos mais úteis, estatísticas de resumo a calcular. Quando os dados estão na forma de uma série temporal, a média da série é uma medida útil, mas não reflete a natureza dinâmica dos dados. Os valores médios calculados em períodos em curto, anteriores ao período atual ou centrados no período atual, são freqüentemente mais úteis. Como esses valores médios variam ou se movem, à medida que o período atual se move a partir do tempo t 2, t 3, etc., eles são conhecidos como médias móveis (Mas). Uma média móvel simples é (tipicamente) a média não ponderada de k valores anteriores. Uma média móvel exponencialmente ponderada é essencialmente a mesma que uma média móvel simples, mas com contribuições para a média ponderada pela sua proximidade com o tempo atual. Como não existe uma, mas toda uma série de médias móveis para qualquer série, o conjunto de Mas pode ser plotado em gráficos, analisado como uma série e usado na modelagem e previsão. Uma gama de modelos pode ser construída usando médias móveis, e estes são conhecidos como modelos MA. Se tais modelos forem combinados com modelos autorregressivos (AR), os modelos compostos resultantes são conhecidos como modelos ARMA ou ARIMA (o I é para integrado). Médias móveis simples Uma vez que uma série temporal pode ser considerada como um conjunto de valores, t 1,2,3,4, n a média destes valores pode ser calculada. Se assumimos que n é bastante grande, e selecionamos um inteiro k que é muito menor que n. Podemos calcular um conjunto de médias de bloco, ou médias móveis simples (de ordem k): Cada medida representa a média dos valores de dados sobre um intervalo de k observações. Observe que a primeira MA possível de ordem k gt0 é aquela para t k. De forma mais geral, podemos descartar o subíndice extra nas expressões acima e escrever: Isto indica que a média estimada no tempo t é a média simples do valor observado no instante t e os intervalos de tempo k-1 anteriores. Se forem aplicados pesos que diminuam a contribuição de observações que estão mais distantes no tempo, a média móvel é dita ser suavizada exponencialmente. As médias móveis são frequentemente utilizadas como uma forma de previsão, pelo que o valor estimado para uma série no tempo t 1, S t 1. É tomado como o MA para o período até e incluindo o tempo t. por exemplo. A estimativa de hoje é baseada em uma média de valores anteriores registrados até e inclusive ontem (para dados diários). As médias móveis simples podem ser vistas como uma forma de suavização. No exemplo ilustrado abaixo, o conjunto de dados sobre poluição atmosférica mostrado na introdução deste tópico foi aumentado por uma linha de média móvel de 7 dias, mostrada aqui em vermelho. Como pode ser visto, a linha de MA suaviza os picos e depressões nos dados e pode ser muito útil na identificação de tendências. A fórmula padrão de cálculo de forward significa que os primeiros k -1 pontos de dados não têm nenhum valor de MA, mas depois os cálculos se estendem até o ponto de dados final da série. Uma razão para calcular médias móveis simples da maneira descrita é que ela permite que os valores sejam calculados para todos os intervalos de tempo desde o tempo tk até o presente, e Como uma nova medição é obtida para o tempo t 1, o MA para o tempo t 1 pode ser adicionado ao conjunto já calculado. Isso fornece um procedimento simples para conjuntos de dados dinâmicos. No entanto, existem alguns problemas com esta abordagem. É razoável argumentar que o valor médio nos últimos 3 períodos, digamos, deve ser localizado no tempo t -1, não no tempo t. E para um MA sobre um número par de períodos, talvez ele deve ser localizado no ponto médio entre dois intervalos de tempo. Uma solução para esse problema é usar cálculos centralizados de MA, nos quais o MA no tempo t é a média de um conjunto simétrico de valores em torno de t. Apesar de seus méritos óbvios, esta abordagem não é geralmente usada porque exige que os dados estejam disponíveis para eventos futuros, o que pode não ser o caso. Em casos onde a análise é inteiramente de uma série existente, o uso de Mas centralizado pode ser preferível. As médias móveis simples podem ser consideradas como uma forma de suavização, removendo alguns componentes de alta freqüência de uma série de tempo e destacando (mas não removendo) as tendências de forma semelhante à noção geral de filtragem digital. De fato, as médias móveis são uma forma de filtro linear. É possível aplicar um cálculo da média móvel a uma série que já tenha sido suavizada, isto é, suavizar ou filtrar uma série já suavizada. Por exemplo, com uma média móvel de ordem 2, podemos considerá-la como sendo calculada usando pesos, então a MA em x 2 0,5 x 1 0,5 x 2. Da mesma forma, a MA em x 3 0,5 x 2 0,5 x 3. Se nós Aplicar um segundo nível de suavização ou filtragem, temos 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 ou seja, a filtragem de 2 estádios Processo (ou convolução) produziu uma média móvel simétrica ponderada variável, com pesos. Várias circunvoluções podem produzir médias móveis ponderadas bastante complexas, algumas das quais foram encontradas de uso particular em campos especializados, como nos cálculos de seguros de vida. As médias móveis podem ser usadas para remover efeitos periódicos se computadas com o comprimento da periodicidade como um conhecido. Por exemplo, com os dados mensais as variações sazonais podem frequentemente ser removidas (se este for o objetivo) por aplicar uma média móvel simétrica de 12 meses com todos os meses ponderados igualmente, exceto o primeiro e o último que são ponderados por 12. Isto é porque haverá Ser de 13 meses no modelo simétrico (tempo atual, t. - 6 meses). O total é dividido por 12. Procedimentos semelhantes podem ser adotados para qualquer periodicidade bem definida. Médias móveis exponencialmente ponderadas (EWMA) Com a fórmula da média móvel simples: todas as observações são igualmente ponderadas. Se chamássemos esses pesos iguais, alfa t. Cada um dos k pesos seria igual a 1 k. Então a soma dos pesos seria 1, ea fórmula seria: Já vimos que múltiplas aplicações desse processo resultam em pesos variando. Com médias móveis ponderadas exponencialmente, a contribuição para o valor médio das observações que são mais removidas no tempo é deliberada reduzida, enfatizando os eventos mais recentes (locais). Essencialmente um parâmetro de suavização, 0lt alfa lt1, é introduzido, ea fórmula revisada para: Uma versão simétrica desta fórmula seria da forma: Se os pesos no modelo simétrico são selecionados como os termos dos termos da expansão binomial, (1212) 2q. Eles somarão a 1, e quando q se tornar grande, aproximar-se-á da distribuição Normal. Esta é uma forma de ponderação do kernel, com o Binomial agindo como a função do kernel. A convolução de dois estágios descrita na subseção anterior é precisamente esta disposição, com q 1, produzindo os pesos. Em suavização exponencial é necessário usar um conjunto de pesos que somam 1 e que reduzem em tamanho geometricamente. Os pesos usados são tipicamente da forma: Para mostrar que esses pesos somam 1, considere a expansão de 1 como uma série. Podemos escrever e expandir a expressão entre parênteses usando a fórmula binomial (1-x) p. Onde x (1-) e p -1, o que dá: Isso então fornece uma forma de média móvel ponderada da forma: Esta soma pode ser escrita como uma relação de recorrência: o que simplifica muito a computação e evita o problema de que o regime de ponderação Deve ser estritamente infinito para os pesos a somar a 1 (para pequenos valores de alfa, isso normalmente não é o caso). A notação utilizada por diferentes autores varia. Alguns usam a letra S para indicar que a fórmula é essencialmente uma variável suavizada e escrevem: enquanto a literatura da teoria de controle usa freqüentemente Z em vez de S para os valores exponencialmente ponderados ou suavizados (ver, por exemplo, Lucas e Saccucci, 1990, LUC1 , E no site do NIST para mais detalhes e exemplos trabalhados). As fórmulas citadas acima derivam do trabalho de Roberts (1959, ROB1), mas Hunter (1986, HUN1) usa uma expressão da forma: que pode ser mais apropriada para uso em alguns procedimentos de controle. Com alfa 1, a estimativa média é simplesmente o seu valor medido (ou o valor do item de dados anterior). Com 0,5 a estimativa é a média móvel simples das medições atuais e anteriores. Nos modelos de previsão, o valor, S t. É freqüentemente usado como estimativa ou valor de previsão para o próximo período de tempo, ou seja, como a estimativa para x no tempo t 1. Assim, temos: Isto mostra que o valor da previsão no tempo t 1 é uma combinação da média móvel exponencialmente ponderada anterior Mais um componente que representa o erro de previsão ponderado, epsilon. No tempo t. Supondo que uma série temporal é dada e uma previsão é necessária, um valor para alfa é necessário. Isto pode ser estimado a partir dos dados existentes, avaliando a soma dos erros de predição quadrados obtidos com valores variáveis de alfa para cada t 2,3. Definindo a primeira estimativa como o primeiro valor de dados observado, x 1. Em aplicações de controle, o valor de alfa é importante na medida em que é usado na determinação dos limites de controle superior e inferior, e afeta o comprimento médio de execução (ARL) esperado Antes que esses limites de controle sejam quebrados (sob o pressuposto de que as séries temporais representam um conjunto de variáveis independentes, aleatoriamente distribuídas, com variância comum). Nestas circunstâncias, a variância da estatística de controlo é (Lucas e Saccucci, 1990): Os limites de controlo são usualmente definidos como múltiplos fixos desta variância assintótica, e. - 3 vezes o desvio padrão. Se alfa 0,25, por exemplo, e os dados sendo monitorados forem assumidos como tendo uma distribuição Normal, N (0,1), quando em controle, os limites de controle serão - 1,134 e o processo atingirá um ou outro limite em 500 passos na média. Lucas e Saccucci (1990 LUC1) derivam os ARLs para uma ampla gama de valores alfa e sob várias suposições usando procedimentos de Cadeia de Markov. Eles tabulam os resultados, incluindo o fornecimento de ARLs quando a média do processo de controle foi deslocada por algum múltiplo do desvio padrão. Por exemplo, com um deslocamento 0,5 com alfa 0,25 o ARL é menos de 50 etapas de tempo. As abordagens descritas acima são conhecidas como suavização exponencial única. Uma vez que os procedimentos são aplicados uma vez à série temporal e, em seguida, análises ou processos de controlo são realizados no conjunto de dados suavizado resultante. Se o conjunto de dados incluir uma tendência e / ou componentes sazonais, o alisamento exponencial de dois ou três estágios pode ser aplicado como um meio de remover (explicitamente modelar) esses efeitos (veja a seção sobre Previsão abaixo e o exemplo trabalhado pelo NIST). CHA1 Chatfield C (1975) A Análise da Série de Tempos: Teoria e Prática. Chapman e Hall, Londres HUN1 Hunter J S (1986) A média móvel exponencialmente ponderada. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Esquemas de controlo da média móvel ponderada exponencialmente: propriedades e melhoramentos. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Testes de gráficos de controle baseados em médias móveis geométricas. Technometrics, 1, 239-250
No comments:
Post a Comment