A Magia do Primeiro Algarismo

Pensemos na sucessão das potências de 2: 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024... Agora, consideremos, não esta sucessão, mas a sucessão do primeiro algarismo significativo (diferente de zero) de cada um dos termos. Esta nova sucessão começa obviamente por 2, 4, 8, 1, 3, 6, 1, 2, 5, 1... Esta sucessão de primeiro algarismo toma, obviamente, apenas 9 valores: os inteiros 1 a 9. O que sugere imediatamente a pergunta: qual é a frequência assimptótica com que surge nesta sucessão cada um dos inteiros? Intuitivamente, a resposta deveria ser que todos os inteiros surgem com igual frequência, ou seja, 1/9, ou aproximadamente 11,1%. Não há razão óbvia a priori para que o primeiro algarismo de uma potência de 2 tenha preferência por tomar algum valor particular. O número 6 parece tão legítimo como 9 ou 1. No entanto, eis a primeira surpresa. A distribuição está muito longe de uniforme: pelo contrário, aproxima-se muito bem de uma distribuição logarítmica, em que


onde P(n) é a probabilidade de ocorrência do algarismo n.

Esta distribuição apresenta-se na linha 1 da tabela 1. O leitor pode achar isto uma pequena e insignificante curiosidade. Talvez a formação das potências de 2 introduza um mecanismo oculto de desvio da distribuição, e é tudo. No entanto, isso não é verdade: se em lugar de potências de 2 considerar potências de 3, 4, ... 9, 11, ... obterá a mesma distribuição logarítmica.


No gráfico 1 comparam-se os valores de log10(1+1/n) com a frequência relativa da ocorrência do algarismo n para as primeiras 1000 potências de 2 e de 7.


Estranho! Muito mais estranho é o que se passa com a tabela 1.Nela apresentam-se as frequências do primeiro algarismo de números recolhidos do «mundo real»: cotações de acções na bolsa portuguesa no dia 16 de Outubro de 2002 (apenas 58, o que dá uma amostra estatística pequena); número de porta de 307 pessoas ao acaso (obtidas abrindo a lista telefónica de Lisboa ao acaso); pesos moleculares de 1800 compostos; áreas (em milhas quadradas) de centenas de rios americanos; população de 3500 cidades americanas; números que aparecem numa edição ao acaso das Selecções do Reader's Digest.

Os resultados são difíceis de acreditar. O leitor provavelmente esperaria encontrar uma distribuição uniforme nas frequências dos primeiros algarismos; uma vez que estes números não estão correlaccionados entre si, todos os algarismos deveriam ser igualmente prováveis. Pois bem, isso é falso: a distribuição de qualquer destas frequências é logarítmica, descrita por (1). Segunda surpresa: a distribuição dos primeiros algarismos parece ser sempre a mesma distribuição logarítmica, independentemente da natureza dos números.

Como em todos os factos científicos, a magia não existe. Esta história começa em 1881 com o astrónomo Simon Newcomb. Num pequeno artigo no American Journal of Mathematics, Newcomb observa que os livros de tabelas de logaritmos davam sinais de muito maior uso nas primeiras páginas do que nas últimas — o que era estranho, porque uma tabela de logaritmos não é exactamente como um romance que se deixa ao fim de algumas páginas se não agradar. Newcomb propôs mesmo, sem grande justificação, a lei logarítmica acima referida.

Em 1938, o físico Frank Benford, da General Electric, fez exactamente a mesma observação, exactamente pelos mesmos motivos (desgaste dos livros de tabelas de logaritmos), e propôs exactamente a mesma lei logarítmica. Benford compilou uma tabela de distribuição do primeiro algarismo para amostras significativas de 20 tipos de números diferentes (na verdade, os dados da tabela 1 sobre pesos moleculares, áreas de rios e população de cidades são os apresentados por Benford), chegando à conclusão de que independentemente da natureza dos dados a distribuição era sempre a mesma. Mais ainda: se somasse todos os dados independentemente da sua natureza, ficava com um conjunto de 20 229 dados que seguia a lei quase perfeitamente — muito melhor do que qualquer um dos 20 conjuntos isoladamente. O artigo de Benford não passou despercebido, e hoje a lei fenomenológica (1) é conhecida como Lei de Benford.

Nos 60 anos que se seguiram à publicação do artigo de Benford, foram realizadas por matemáticos, físicos, estatísticos e até amadores muitas tentativas de demonstração da lei de Benford. No entanto, estas tentativas nunca tiveram sucesso completo.

Em 1996 o matemático Theodore Hill, do Georgia Institute of Technology, conseguiu finalmente resolver o problema de uma forma muito elegante e verdadeiramente matemática: substituiu o problema original por outro aparentemente mais difícil. Observou que uma lei universal para a distribuição do primeiro algarismo deveria ser invariante de base: isto é, deveria ser válida em qualquer base inteira, e não apenas na base 10. Analisando esta hipótese de invariância de base, Hill descobriu que ao considerar conjuntos de diferentes tipos de números, e não os próprios números, os problemas matemáticos desapareciam. Hill conseguiu assim demonstrar formalmente que a lei de Benford é a única distribuição de probabilidade invariante de base. A lei de Benford é, portanto, um teorema. Não há magia no fenómeno do primeiro algarismo.

Uma outra demonstração de Hill considera a mistura de muitas distribuições de dados de natureza diferente em simultâneo. O que se mostra é que, mesmo que cada distribuição não siga individualmente a lei de Benford, o conjunto de todas as distribuições (uma espécie de «amostras aleatórias de distribuições aleatórias») o faz. Assim, a própria demonstração esclarece a observação algo misteriosa de Benford: a de que a união dos seus dados fenomenológicos satisfazia muito melhor a sua lei do que qualquer dos conjuntos de dados isoladamente. Da mesma forma, a mistura dos valores das cotações das acções em Bolsa, combinadas com as moradas e com os rios americanos verifica mais precisamente a lei de Benford do que qualquer dos dados separadamente!

O exemplo mais espectacular é sem dúvida a aplicação da lei de Benford à fiscalização de impostos e à auditoria financeira. A observação essencial é a seguinte: dados contabilísticos reais constantes das declarações fiscais satisfazem com probabilidade 1 a lei de Benford. Ora o que se verifica é que as pessoas são, do ponto de vista da lei de Benford, «más» a inventar dados. Dados fictícios fabricados pela mão humana raramente satisfazem a lei de Benford — talvez por razões psicológicas: pela intuição, falsa, de que a distribuição do primeiro algarismo é uniforme.


adaptado do capítulo 3 - "A magia do primeiro algarismo", do livro Da falsificação de Euros aos Pequenos Mundos, de Jorge Buescu

Sem comentários:

Publicar um comentário