Affiliation:
1. Universidade de S. Paulo
Abstract
1) Chamamos um desvio relativo simples o quociente de um desvio, isto é, de uma diferença entre uma variável e sua média ou outro valor ideal, e o seu erro standard. D= v-v/ δ ou D = v-v2/δ Num desvio composto nós reunimos vários desvios de acordo com a equação: D = + Σ (v - 2)²: o o = o1/ o o Todo desvio relativo é caracterizado por dois graus de liberdade (número de variáveis livres) que indicam de quantas observações foi calculado o numerador (grau de liberdade nf1 ou simplesmente n2) e o denominador (grau de liberdade nf2 ou simplesmente n2). 2) Explicamos em detalhe que a chamada distribuição normal ou de OAUSS é apenas um caso especial que nós encontramos quando o erro standard do dividendo do desvio relativo é calculado de um número bem grande de observações ou determinado por uma fórmula teórica. Para provar este ponto foi demonstrado que a distribuição de GAUSS pode ser derivada da distribuição binomial quando o expoente desta torna-se igual a infinito (Fig.1). 3) Assim torna-se evidente que um estudo detalhado da variação do erro standard é necessário. Mostramos rapidamente que, depois de tentativas preliminares de LEXIS e HELMERT, a solução foi achada pelos estatísticos da escola londrina: KARL PEARSON, o autor anônimo conhecido pelo nome de STUDENT e finalmente R. A. FISHER. 4) Devemos hoje distinguir quatro tipos diferentes de dis- tribuições de acaso dos desvios relativos, em dependência de combinação dos graus de liberdade n1 e n2. Distribuição de: fisher 1 < nf1 < infinito 1 < nf2 < infinito ( formula 9-1) Pearson 1 < nf1 < infinito nf 2= infinito ( formula 3-2) Student nf2 = 1 1 < nf2= infinito ( formula 3-3) Gauss nf1 = 1 nf2= infinito ( formula 3-4) As formas das curvas (Fig. 2) e as fórmulas matemáticas dos quatro tipos de distribuição são amplamente discutidas, bem como os valores das suas constantes e de ordenadas especiais. 5) As distribuições de GAUSS e de STUDENT (Figs. 2 e 5) que correspondem a variação de desvios simples são sempre simétricas e atingem o seu máximo para a abcissa D = O, sendo o valor da ordenada correspondente igual ao valor da constante da distribuição, k1 e k2 respectivamente. 6) As distribuições de PEARSON e FISHER (Fig. 2) correspondentes à variação de desvios compostos, são descontínuas para o valor D = O, existindo sempre duas curvas isoladas, uma à direita e outra à esquerda do valor zero da abcissa. As curvas são assimétricas (Figs. 6 a 9), tornando-se mais e mais simétricas para os valores elevados dos graus de liberdade. 7) A natureza dos limites de probabilidade é discutida. Explicámos porque usam-se em geral os limites bilaterais para as distribuições de STUDENT e GAUSS e os limites unilaterais superiores para as distribuições de PEARSON e FISHER (Figs. 3 e 4). Para o cálculo dos limites deve-se então lembrar que o desvio simples, D = (v - v) : o tem o sinal positivo ou negativo, de modo que é em geral necessário determinar os limites bilaterais em ambos os lados da curva (GAUSS e STUDENT). Os desvios relativos compostos da forma D = O1 : o2 não têm sinal determinado, devendo desprezar-se os sinais. Em geral consideramos apenas o caso o1 ser maior do que o2 e os limites se determinam apenas na extremidade da curva que corresponde a valores maiores do que 1. (Limites unilaterais superiores das distribuições de PEARSON e FISHER). Quando a natureza dos dados indica a possibilidade de aparecerem tanto valores de o(maiores como menores do que o2,devemos usar os limites bilaterais, correspondendo os limites unilaterais de 5%, 1% e 0,1% de probabilidade, correspondendo a limites bilaterais de 10%, 2% e 0,2%. 8) As relações matemáticas das fórmulas das quatro distribuições são amplamente discutidas, como também a sua transformação de uma para outra quando fazemos as necessárias alterações nos graus de liberdade. Estas transformações provam matematicamente que todas as quatro distribuições de acaso formam um conjunto. Foi demonstrado matematicamente que a fórmula das distribuições de FISHER representa o caso geral de variação de acaso de um desvio relativo, se nós extendermos a sua definição desde nfl = 1 até infinito e desde nf2 = 1 até infinito. 9) Existe apenas uma distribuição de GAUSS; podemos calcular uma curva para cada combinação imaginável de graus de liberdade para as outras três distribuições. Porém, é matematicamente evidente que nos aproximamos a distribuições limitantes quando os valores dos graus de liberdade se aproximam ao valor infinito. Partindo de fórmulas com área unidade e usando o erro standard como unidade da abcissa, chegamos às seguintes transformações: a) A distribuição de STUDENT (Fig. 5) passa a distribuição de GAUSS quando o grau de liberdade n2 se aproxima ao valor infinito. Como aproximação ao infinito, suficiente na prática, podemos aceitar valores maiores do que n2 = 30. b) A distribuição de PEARSON (Fig. 6) passa para uma de GAUSS com média zero e erro standard unidade quando nl é igual a 1. Quando de outro lado, nl torna-se muito grande, a distribuição de PEARSON podia ser substituída por uma distribuição modificada de GAUSS, com média igual ale unidade da abcissa igual a 1 : V2 n 1 . Para fins práticos, valores de nl maiores do que 30 são em geral uma aproximação suficiente ao infinito. c) Os limites da distribuição de FISHER são um pouco mais difíceis para definir. I) Em primeiro lugar foram estudadas as distribuições com n1 = n2 = n e verificamos (Figs. 7 e 8) que aproximamo-nos a uma distribuição, transformada de GAUSS com média 1 e erro standard l : Vn, quando o valor cresce até o infinito. Como aproximação satisfatória podemos considerar nl = n2 = 100, ou já nl =r n2 - 50 (Fig. 8) II) Quando n1 e n2 diferem (Fig. 9) podemos distinguir dois casos: Se n1 é pequeno e n2 maior do que 100 podemos substituir a distribuição de FISHER pela distribuição correspondente de PEARSON. (Fig. 9, parte superior). Se porém n1é maior do que 50 e n2 maior do que 100, ou vice-versa, atingimos uma distribuição modificada de GAUSS com média 1 e erro standard 1: 2n1 n3 n1 + n2 10) As definições matemáticas e os limites de probabilidade para as diferentes distribuições de acaso são dadas em geral na literatura em formas bem diversas, usando-se diferentes sistemas de abcissas. Com referência às distribuições de FISHER, foi usado por este autor, inicialmente, o logarítmo natural do desvio relativo, como abcissa. SNEDECOR (1937) emprega o quadrado dos desvios relativos e BRIEGER (1937) o desvio relativo próprio. As distribuições de PEARSON são empregadas para o X2 teste de PEARSON e FISHER, usando como abcissa os valores de x² = D². n1 Foi exposto o meu ponto de vista, que estas desigualdades trazem desvantagens na aplicação dos testes, pois atribui-se um peso diferente aos números analisados em cada teste, que são somas de desvios quadrados no X2 teste, somas des desvios quadrados divididos pelo grau de liberdade ou varianças no F-teste de SNEDECOR, desvios simples no t-teste de STUDENT, etc.. Uma tábua dos limites de probabilidade de desvios relativos foi publicada por mim (BRIEGER 1937) e uma tábua mais extensa será publicada em breve, contendo os limites unilaterais e bilaterais, tanto para as distribuições de STUDENT como de FISHER. 11) Num capítulo final são discutidas várias complicações que podem surgir na análise. Entre elas quero apenas citar alguns problemas. a) Quando comparamos o desvio de um valor e sua média, deveríamos corretamente empregar também os erros de ambos estes valores: D = u- u o2 +²5 Mas não podemos aqui imediatamente aplicar os limites de qualquer das distribuições do acaso discutidas acima. Em geral a variação de v, medida por o , segue uma distribuição de STUDENT e a variação da média V segue uma distribuição de GAUSS. O problema a ser solucionado é, como reunir os limites destas distribuições num só teste. A solução prática do caso é de considerar a média como uma constante, e aplicar diretamente os limites de probabilidade das dstribuições de STUDENT com o grau de liberdade do erro o. Mas este é apenas uma solução prática. O problema mesmo é, em parte, solucionado pelo teste de BEHRENDS. b) Um outro problema se apresenta no curso dos métodos chamados "analysis of variance" ou decomposição do erro. Supomos que nós queremos comparar uma média parcial va com a média geral v . Mas podemos calcular o erro desta média parcial, por dois processos, ou partindo do erro individual aa ou do erro "dentro" oD que é, como explicado acima, uma média balançada de todos os m erros individuais. O emprego deste último garante um teste mais satisfatório e severo, pois êle é baseado sempre num grau de liberdade bastante elevado. Teremos que aplicar dois testes em seguida: Em primeiro lugar devemos decidir se o erro ou difere do êrro dentro: D = δa/δ0 n1 = np/n2 m. n p Se este teste for significante, uma substituição de oa pelo oD não será admissível. Mas mesmo quando o resultado for insignificante, ainda não temos certeza sobre a identidade dos dois erros, pois pode ser que a diferença entre eles é pequena e os graus de liberdade não são suficientes para permitir o reconhecimento desta diferença como significante. Podemos então substituirmos oa por oD de modo que n2 = m : np: D = V a - v / δa Np n = 1 n2 = np passa para D = v = - v/ δ Np n = 1 n2 = m.n p as como podemos incluir neste último teste uma apreciação das nossas dúvidas sobre o teste anterior oa: oD ? A melhor solução prática me parece fazer uso da determinação de oD, que é provavelmente mais exata do que oa, mas usar os graus de liberdade do teste simples: np = 1 / n2 = np para deixar margem para as nossas dúvidas sobre a igualdade de oa a oD. Estes dois exemplos devem ser suficientes para demonstrar que apesar dos grandes progressos que nós podíamos registrar na teoria da variação do acaso, ainda existem problemas importantes a serem solucionados.
Reference6 articles.
1. Tábuas e Fórmulas para Estatística;BRIEGER F. G.,1937
2. Statistical Methods for Research Workers;FISHER R. A.,1941
3. Statistical Tables, for Bioloical, Agricultural and Medical Research;FISHER R. A.,1943
4. Mathematics of Statistics Van Nostrand Company;KENNEY J. F.,1939
5. Statistical Methods;SNEDECOR G. W.,1937