quinta-feira, 31 de janeiro de 2013

Demarcando Limites

Em situações graves como a do incêndio de Santa Maria, uma atitude muito sensata é tentar entender o problema (antes de abrir a boca, ou facebook, seria bom que a maioria dos "izpicializtas de redes sociais" lessem isto). E entender de modo a resolve-lo, ou pelo menos mitiga-lo.

Naturalmente, não é isso que normalmente acontece. Há interesses, irresponsabilidade e indignação suficientes para levar a tomar atitudes que levam inevitavelmente a dores de cabeça futuras - aonde as vítimas podem sair da casa das centenas, para dos milhares ou centenas de milhares....

Mas, neste blog, o interesse é justamente clarificar aonde há confusão. Então vamos ver alguns dados relevantes com relação a incêndios:

  1. 1961: Gran Circo Americano - 500 mortos
  2. 1972: Edifício Andraus - 16 mortos
  3. 1974: Edifício Joelma - 191 mortos
  4. 1976: Lojas Renner - 41 mortos.
  5. 1981: Edifício Grande Avenida - 17 mortos
  6. 1986: Edifício Andorinha - 21 mortos
  7. 2013: Boate Kiss - 235 mortos

O primeiro é o de maior número de mortos no país. Há outros menores, mas podemos  adicionar a esta lista casos como o acidente de Cubatão, enchentes no Rio e muito mais. Mas para os propósitos deste post, estes dados bastam.

No período de 52 anos (1961 até 2013), temos:

  • 1021 mortes em 7 grandes incêndios
  • 2 incêndios (286%) causaram cerca de 72% das mortes
  • Os 5 incêndios restantes (71.4%) causaram 28% das mortes

Olhando isso temos uma progressão geométrica do tipo 30-70 - o que corresponde a uma distribuição de probabilidade do tipo power law. Mas antes de continuar cabe um importante aviso: uma relação como essa, tirada apenas de 7 pontos é no mínimo leve e no máximo imaginada.
Ah, se eu tivesse mais dados...
Mesmo assim, a relação me parece permitir algumas suposições educadas:
Seria natural imaginar que teríamos pelo menos 1 incêndio de grandes proporções a cada 25 anos, 1 incêndio de razoáveis proporções a cada 10 anos.

quarta-feira, 30 de janeiro de 2013

E a Triste Notícia parece levar a Tristes Fatos

A tragédia do incêndio em Santa Maria parece estar levado a uma situação de pânico moral aqui na terrinha. Porque pânico moral? Olhem uma lista de incêndios em clubes...

Desde 1929, o total de vítimas fatais foi de 2744 pessoas (ou 33 pessoas/ano). Compare isso com outros tipos de fatalidade: raios, ou outras causas...

Estamos diante de um evento muito raro porém de razoável magnitude quando ocorre.

Fala-se em alvará, qual deve ser a largura da porta, quantas pessoas devem ficar em um ambiente do tipo boate - fala-se de tudo. Só que a enorme maioria fala do "alto de sua ignorância".

Enquanto tivemos alguns casos de incêndios com mortes em boates na mídia (Argentina, Rússia, Tailândia e Estados Unidos) e um ou outro sem fatalidades, o que se lê e ouve beira o inacreditável: as pessoas argumentam como se os problemas de casas noturnas fossem absolutamente desconhecidos.

Bem, não são. E mais ainda: são razoavelmente antigos.

E mais: o elo em comum em todos os incêndios listados acima é o uso de pirotecnia em local fechado!

E tem gente que nunca leu uma norma técnica na vida e ainda desejar modificar as atuais (procurem sobre PSCIP e APCIP na internet).

E, naturalmente, a cereja no bolo são os "activia-istas"*da Internet usando o incêndio para culpar o prefeito, os bombeiros, as agências de fiscalização, os seguranças, o capitalismo, etc...

Dureza...

* Uso o termo activia-istas - pela associação que deveria ser óbvia com o Activia (e seu suposto auxílio na regularidade intestinal)

segunda-feira, 28 de janeiro de 2013

Uma Triste Notícia

O assunto atual é o lamentável incêndio com várias vítimas em Santa Maria.

Só posso me solidarizar com as vítimas e familiares. Realmente é uma grande tragédia.

Mas posso clarificar um ponto importante: em qualquer incidente desta magnitude, dificilmente há uma única causa. O que acontece é sempre uma conjunção de fatores que acaba por aumentar a chance de uma tragédia.

Portanto, caro leitor, sugiro que tenha paciência e não pule para as conclusões (ou atribuição de culpa prematuramente), por mais tentador que isso pareça. E dê um desconto aos participantes das redes sociais - a maioria quer expressar sua dor, sua solidariedade. Há uns poucos, de caráter duvidoso, que querem fazer disso plataforma para suas idéias, ou mesmo ideologias (sem falar nos "comediantes sem a menor graça")

Felizmente, esses são minorias.

sexta-feira, 25 de janeiro de 2013

Aplicando a Teoria

Finalmente podemos usar os instrumentos que foram obtidos nos últimos posts. O que estes instrumentos permitem é algo poderoso: estimar com confiança possíveis futuros.

Claro que não é clarividência: tudo tem associado um erro e uma incerteza. Mas com cuidado e prática podemos usar estes instrumentos com confiança. Vamos primeiro ao caso da estimativa de apenas 1 mês:

  • 84.3% de chance de inflação mensal de 0.35%
  • 15.7% de chance de inflação mensal de 1.01%

Este modelo é do tipo moeda, mas na realidade podemos estimar o valor esperado: 0.843*0.35+0.157*1.19 = 0.48
Uma previsão mais futurista, digamos a inflação acumulada vai depender do valor de inflação conhecido no momento. Então digamos que desejamos uma projeção da inflação em 3 meses. Precisamos primeiro dos dados do modelo de estimativa de 2 meses

  • 71.1% de chance de inflação em 2 meses de 0.69%
  • 26.4% de chance de inflação em 2 meses de 1.55%
  • 2.5% de chance de inflação em 2 meses de 2.41%

Agora precisamos da inflação no mês. No caso vamos considerar janeiro de 2009 (0.48%) e tentar estimar a inflação acumulada até março de 2009 (1.23%). Um jeito simples (e medianamente errado) é apenas somar os valores (adicionar 0.48% aos valores do modelo de estimativa de 2 meses):


  • 71.1% de chance de inflação em 2 meses de 1.17%
  • 26.4% de chance de inflação em 2 meses de 2.03%
  • 2.5% de chance de inflação em 2 meses de 2.89%


Agora fazemos o cálculo do valor esperado:
0.711*1.17+0.264*2.03+0.025*2.89 = 1.44%
Mais ainda podemos dizer que o valor esperado tem entre 71.1 % e 97.5% chance de acontecer (71.1+26.4).
Se fizermos com outra data (por exemplo março de 2012 - 0.21%) temos:

  • 71.1% de chance de inflação em 2 meses de 0.9%
  • 26.4% de chance de inflação em 2 meses de 1.76%
  • 2.5% de chance de inflação em 2 meses de 2.62%

Agora fazemos o cálculo o valor esperado: 1.17% (o valor real de maior foi de 1.21%). Naturalmente, quanto mais distante no futuro, maior a incerteza. No caso de estimar a inflação acumulada de 6 meses, torna-se necessário um pouco mais de cálculo. Portanto para 5 meses temos:

  • 42.6% de chance da inflação em 5 meses de 1.75%
  • 39.6% de chance da inflação em 5 meses de 2.61%
  • 14.8% de chance da inflação em 5 meses de 3.48%
  • 2.8% de chance da inflação em 5 meses de 4.35%
  • 0.2% de chance da inflação em 5 meses de 5.23%

Agora se quisermos saber de modo aproximado quanto será a inflação daqui a 6 meses basta somar a inflação deste mês. Vamos fazer 2 exemplos:
Calcular a inflação de 6 meses começando janeiro de 2011 (ou seja o acumulado até junho de 2011) e comparar com o que foi obtido
Estimar quanto será a inflação acumulada em seis meses a partir de dezembro de 2012.
Vamos ao primeiro caso a inflação em janeiro de 2011 foi de 0.83% e a inflação de 6 meses em junho foi 3.87%. Portanto:

  • 42.6% de chance da inflação em 5 meses de 2.58%
  • 39.6% de chance da inflação em 5 meses de 3.44%
  • 14.8% de chance da inflação em 5 meses de 4.31%
  • 2.8% de chance da inflação em 5 meses de 5.08%
  • 0.2% de chance da inflação em 5 meses de 6.06%
O valor esperado é: 3.25% - nada mal comparado ao valor real de 3.87%.

Já a previsão para daqui a seis meses tem um problema: não temos a inflação de janeiro. Mas temos a de dezembro de 2012 - 0.79%. Se fizermos as contas chegaremos a 3.21%. Agora é esperar para ver...

quinta-feira, 24 de janeiro de 2013

Correções e Pontos Interessantes

Continuando o último post, os dados de inflação geraram três distribuições (do tipo cara-ou-coroa). A primeira desde 1994, a segunda desde 1995 e a terceira desde 2003. Meus cálculos anteriores da distribuição de 1995 tinham um erro... Mas vamos a elas.
1994:
  • p1=0,973507038
  • p2=0,026492962
  • x1=0,639897944
  • x2=43,29658736
1995:
  • p1=0,838172461
  • p2=0,161827539
  • x1=0,367210851
  • x2=1,743918116
2003:
  • p1=0,842963645
  • p2=0,157036355
  • x1=0,346499152
  • x2=1,196626171
Vemos que a de 1995 não é tão diferente da de 2003. Mas podemos agora novamente calcular (p1+p2)^X, e ter uma razoável estimativa da inflação acumulada e sua probabilidade em X meses. Vamos aos casos interessantes....

Se considerarmos a distribuição de 1995 e X=2 temos:
  • Probabilidade de 0.70 da inflação acumulada ser de 0.74%
  • Probabilidade de 0.27 da inflação acumulada ser de 2.12%
  • Probabilidade de 0.03 da inflação acumulada ser de 3.52%
Para 1995 e X = 3 (1 trimestre) temos:
  • Probabilidade de 0.59 da inflação acumulada ser de 1.11%
  • Probabilidade de 0.34 da inflação acumulada ser de 2.49%
  • Probabilidade de 0.07 da inflação acumulada ser de 3.89%
Para 1995 e X = 6 (1 semestre) temos:
  • Probabilidade de 0.35 da inflação acumulada ser de 2.22%
  • Probabilidade de 0.40 da inflação acumulada ser de 3.63%
  • Probabilidade de 0.19 da inflação acumulada ser de 5.05%
Por fim o mesmo 1995 e X=12 (1 ano temos)
  • Probabilidade de 0.12 da inflação acumulada ser de 4.5%
  • Probabilidade de 0.27 da inflação acumulada ser de  5.92%
  • Probabilidade de 0.30 da inflação acumulada ser de  7.38%
  • Probabilidade de 0.19 da inflação acumulada ser de 8.86%
O que estas probabilidades nos dizem é o seguinte: há 75% de  chance da inflação em 6 meses ser menor ou igual que 3.63%, mas há somente 69% de chance da inflação acumulada em 12 meses ser menor ou igual a 7.38%. No caso de X=2, o valor esperado da inflação acumulada é de 1.2%

Mesmo com estes dados bem aproximados, é possível fazer um chute educado: se tivermos inflação acumulada de 2 meses maior do 2.12% consistentemente, então é hora de começar a se preocupar de verdade....

quarta-feira, 23 de janeiro de 2013

Mudou alguma coisa?

Por vezes, surge uma dúvida em uma estatística: mudou alguma coisa? Mais especificamente mudou a média, ou mudou a variância? Esta pergunta é análoga ao problema da moeda honesta, ou seja a moeda é honesta?

Vamos supor que desejamos saber se a inflação está aumentando ou diminuindo, como vamos poder tomar uma decisão baseado em uma série temporal. Ou seja, a inflação de vários meses consecutivos ficou acima da média esperada.

Em termos de equações de probabilidades:

  • p(inflação subiu) = p(inflação subiu | X meses acima da média) * p(X meses acima da média) + p(inflação subiu | não X meses acima da média) *p(não X meses acima da média)
  • p(X meses acima da média) = p(X meses acima da média | inflação subiu) *p( inflação subiu) + p(X meses acima da média | inflação não subiu) * p(inflação não subiu)
  • p(X meses acima da média | inflação subiu)* p(inflação subiu) = p(inflação subiu | X meses acima da média) *p (X meses acima da média).

Este conjunto de três equações pode ser usado para tentarmos determinar se a inflação subiu ou não... Mas para ter uma idéia mais precisa vamos ter de usar a Transformada da incerteza e uma série do IPCA. No caso vamos usar a série para calcular uma distribuição simples do IPCA baseado em estatística. No caso a média de 1994 até 2012 é 1.77, com desvio de 6.85, distorção de 5.90. Vamos encontrar a distribuição UT que modela estes dados:

  • x1=0.641, p1 =0.9735
  • x2=43.31, p2=0.0265

Naturalmente os dados de 1994 atrapalham um pouco pois o IPCA ainda estava alto - era o final da época de inflação e real ainda estava por começar. Se tomarmos os dados de 1995 em diante temos um quadro diferente: média de 0.59, desvio de 0.50, distorção de 5.9.

Então vamos encontrar a distribuição discreta da UT que modela estes dados:

  • x1=0.508, p1=0.9735
  • x2=3.622, p2=0.0265

O que vemos é uma distribuição concentrada em 0.508% (97.35%), com um outro ponto correspondente a alta inflação em 3.62% (2.65%). Agora podemos modelar esta distribuição como uma moeda e ver a probabilidade de termos uma sequência acima da média por X meses. Um exemplo: vamos supor 2 meses, neste caso basta fazer a expansão: (p1+p2)^2. Há uma probabilidade de 94.8%  do acumulado em 2 meses ser de 1.02%, 5.1% do acumulado em 2 meses ser de 4.2% e 0.1% do acumulado em 2 meses ser 7.3%. Em suma:

  • 94.8% de chance da inflação acumulada em 2 meses ser 1.02%
  • 5.1% de chance da inflação acumulada em 2 meses ser 4.2%
  • 0.1% de chance da inflação acumulada em 2 meses ser 7.3%

Podemos finalmente calcular a chance de p(2 meses acima da média) = 0.051+0.001 = 0.052.

Em outro post continuo este estudo para o caso de 3 meses, 4 meses, 6 meses e 1 ano.

domingo, 20 de janeiro de 2013

Farscape

Já estou há um bom tempo pensando em colocar aqui mais sobre um dos meus shows de tv favoritos: Farscape.

O show descreve as aventuras do astronauta John Crichton em uma galáxia distante. É um universo de estórias completamente diferente do resto da ficção científica da televisão.

Eu recomento

Aplicando Bayes a um Caso de Prova

Uma das aplicações interessantes do teorema de Bayes é análise de notas. Apesar de não termos muitos dados, diversas informações podem ser extraídas de um conjunto assim. Aqui mostro um caso de notas em uma prova e da realização de uma lista de exercício previamente.

Vamos começar com os dados crus:
Colunas1 Nota 0 Nota 2,5 Nota 5 Nota 7,5 Nota 10 Total
Fez a Lista 0 3 3 9 8 23
Não Fez a Lista 1 7 4 3 6 21
Total 1 10 7 12 14

Aqui temos os dados necessários. Quantos fizeram a lista previamente e quais as notas. Em adição temos também as notas dos que não fizeram a lista.

Daqui por diante é importante pensar nas proporções como aproximações de probabilidade. Por exemplo, a probabilidade de tirar 5 ou mais dado que fez a lista é igual a:
p(Nota maior ou igual a5 | Fez a Lista) = (3+9+8)/23 = 0.87
Já a probabilidade de tirar 5 ou mais dado que fez a lista é igual a:
p(Nota maior ou igual a 5 | Não fez a Lista) = (4+3+6)/21 = 0.62
Este tipo de análise pode ser feita também do lado da nota. Por exemplo, a probabilidade de ter feito a lista dado que a nota foi menor do que 5 é:
p(Fez a Lista | Nota menor que 5) = (3+0)/11=0.27
Já a probabilidade tirar Nota menor que 5 dado que fez a lista é igual a:
p(Nota menor que 5 | Fez a Lista) = (3+0)/23 = 0.13
Qual é a conclusão? Alunos que fizeram a lista apresentaram melhor desempenho do que alunos que não fizeram a lista. Mais ainda, é mais provável ter bom desempenho quando a lista foi feita.

Parece óbvio, mas agora você pode dizer que, neste exemplo, alunos que fizeram a lista tinham (1-0.87/0.62)*100 = 40% mais chance de notas acima ou igual a 5 do que alunos que não fizeram a lista.

sexta-feira, 18 de janeiro de 2013

Repetições de Bernoulli com Bayes

Um ponto interessante na matemática é que a soma das probabilidades de 2 eventos mutuamente exclusivos  p(A) e p(B) é: p(A)+p(B)=1

Naturalmente p(B)=1-p(A).

Já se forem 3 eventos mutuamente exclusivos (A,B e C) p(A), p(B) e p(C) temos: p(A)+p(B)+p(C)=1

Se os mesmos forem repetidos n vezes temos sempre (p(A)+p(B)+p(C))^n =1. Desta identidade para (p(A)+p(B))^n temos a distribuição Binomial, descrita nas repetições de Bernoulli. Mas mais interessante é quando os 2 eventos A e B não são mutuamente exclusivos. Da teoria de conjuntos, o número de elementos da união dos dois conjuntos A e B é dado pela soma do número de elementos de A com o número de elementos de B menos o número de elementos comuns a A e B:

n(A +B) = n(A)+n(B) - n(A comum a B).

Pela definição de frequentista de probabilidade:

1 = n(A)/n(A +B)+n(B)/n(A +B) - n(A comum a B)/n(A +B).

Se chamarmos:

n(A)/n(A +B) = p(A)
n(B)/n(A +B) = p(B)
n(A comum a B)/n(A +B) = p(A comum a B)

O último termos, pelo teorema de Bayes é: p(A comum a B) = p(A|B)*p(B) = p(B|A)*p(A). E isto resulta em uma das duas formas:

p(A)+p(B)-p(A|B)*p(B) = p(A)+p(B)*(1-p(A|B)) = 1
p(A)+p(B)-p(B|A)*p(A) = p(A)*(1-p(B|A))+p(B) = 1


Claro que há toda um gama de equações que podem ser tiradas destas:

p(A|B) = (p(A)+p(B)-1)/p(B) = 1-(1-p(A))/p(B)
p(B|A) = (p(A)+p(B)-1)/p(A) = 1-(1-p(B))/p(A)


Naturalmente poderíamos chamar p(B)*(1-p(A|B)) = p(C) ou p(A)*(1-p(B|A)) = p(D) e reescrever as equações como:

p(A)+p(B)-p(A|B)*p(B) = p(A)+p(C) = 1
p(A)+p(B)-p(B|A)*p(A) = p(D)+p(B) = 1

E a formulação das tentativas de Bernoulli fica:

(p(A)+p(C))^n = (p(D)+p(B))^n = 1

Mas eu gosto da idéia da formulação de uma repetição de Bernoulli baseado em eventos que não sejam mutuamente exclusivos:

(p(A)+p(B)-p(A|B)*p(B))^n = (p(A)+p(B)-p(B|A)*p(A))^n = 1

quinta-feira, 17 de janeiro de 2013

Contradições


Como conciliar uma pessoa que demanda transparência, mas se esconde atrás de um perfil falso?

Como conciliar uma pessoa que demanda integridade, mas não hesita em burlar a ética para avançar sua agenda?

Como conciliar uma pessoa que burla o direito autoral, mas se irrita quando algo que criou é distribuído sem sua permissão?

Como conciliar uma pessoa que demanda que as decisões sejam coletivas, mas acusa de golpe quando as decisões coletivas não se alinham com seus interesses?

Como conciliar demandas quando as ações pessoais apontam o caminho oposto?

Estas perguntas são intrínsecas a todo ser humano. Temos aqui em todos os exemplos situações de contraste entre o coletivo e o individual.

Mas em defesa dos argumentos furados, devo dizer que o equilíbrio ente o coletivo e o individual é algo muito, muito delicado. Há sempre uma troca, há sempre um atrito, há sempre um compromisso.

quarta-feira, 16 de janeiro de 2013

Um mártir à disposição

Faleceu recentemente Aaron Swartz.
Branco, "progressista" e inteligente. Mártir à vista...
Inteligente, ativista das redes digitais, ele foi encontrado enforcado em seu apartamento em Nova Iorque. As razões são motivo de debate (aparentemente ele se encontrava deprimido). Ele mantinha um blog que pode se visto aqui.

No entanto, devido a um download ilegal de 4.8 milhões de artigos do JSTOR, Swartz cruzou a linha entre o ativismo legal e o crime. E é importante dizer que, com isto, os promotores foram para cima dele com todas as armas.

E aí a coisa começa a ficar complicada...

Swartz aparemente decidiu encerrar sua própria vida. E com isso, as pessoas próximas e não tão próximas assim começaram a enxergar isso como consequência do processo legal que ele era réu.

Bem, pode até ser realmente verdade (quem pode culpar familiares de buscarem razões que os eximam de culpa ou da imaginação de culpa?). Mas no caso dos ativistas digitais que estão tentando transformar Swartz em mártir, não dá para ser tão condescendente.

De modo bem simples: ele cometeu um crime e estava sendo processado por isso. O processo era brutal? O crime era de menor monta? As motivações eram puras? Isso, caro leitor, não é tarefa minha ou sua decidir, mas da corte que iria julgá-lo.

O que os ativistas querem, talvez até por um certo receio, é inimputabilidade. Parece bonitinho, mas é outra palavra para "minhas ações estão acima do seu julgamento".

O caro leitor concorda com isso?

segunda-feira, 14 de janeiro de 2013

Propaganda Enganosa?

Saiu no Estadão uma notícia que poderia causar frisson: Cinto transforma gordura corporal em bateria para celular.
Bom demais para ser verdade...
Parece bom demais para ser verdade, não? Bem, realmente é bom demais para ser verdade. A notícia trata de um dispositivo apresentado no NANO Supermarket. E aqui está a questão.
"The NANO Supermarket presents speculative nanotech products that may hit the shelves within the next ten years: medicinal candy, interactive wall paint, a wine which taste can be altered with microwaves, a twitter implant, invisible security spray and much more. Visit the shop, taste & test our products and experience the impact of nanotechnology on our everyday lives."
Notaram que o "especulativo" está em negrito? Bem, fui eu que coloquei em negrito. Em suma: o tal cinto não existe! É apenas uma idéia de uma designer do que "seria um bom produto".
Ipod
Não quero menosprezar os designers de modo algum. Os engenheiros são comprovadamente fracos neste ponto: procuramos antes a função, mesmo em detrimento da forma (em outras palavras: a coisa pode ser feia, mas funciona). Se dependessem de nós, talvez o IPod Touch nunca tive ficado tão belo quanto ficou (e com isso o IPhone não seria tão bonito também).
Iphone
Mas isso não muda o fato: o tal cinto (ainda) não existe.

sábado, 12 de janeiro de 2013

sexta-feira, 11 de janeiro de 2013

Mas e quanto isso significa?

Francamente, depois de ler How to Measure Anything e estar lendo The Signal and the Noise, estou me tornando bem menos tolerantes com relação aos "ispicializtas" que aparecem em jornais e na mídia televisiva.
Estes são os "ispicializtas" brasileiros (mas tem no mundo todo).
Dois casos que me irritam particularmente: os especialistas dizendo que o número de mortes na faixa de pedestre aumentou e o risco de apagão no Brasil.

Como eu já discuti a questão do risco de apagão (não há risco de apagão, mas quanto a aumentar os custos o problema é bem diferente), eu vou falar sobre a questão das faixas de pedestre. Vamos ao que é dito no jornal:
Apesar de em 2012 o pedestre ter sido tratado como prioridade no trânsito, a imprudência dá consecutivos sinais de que o orgulho candango de respeito ao próximo enfrenta problemas. A constatação aparece nas estatísticas. Oito pessoas morreram ao tentar a travessia sobre o espaço que deveria ser sagrado para quem anda a pé. É o dobro dos registros de 2011 e fica entre os piores resultados desde 1997. Nos últimos seis anos, a quantidade de mortos sobre a faixa se mantém alta.
O número de atropelamentos em 2012 foi 8 (até agosto era de 7). Comparado com 2011, isto significa um aumento - já que este número de 2011 foi 4. Isto é um dos piores resultados desde 1997.

Parece horrível, não?

Mas quanto foi a média de 1997 até agora? Os dados podem ser vistos aqui. Bem, a média foi de 5.56 com um desvio padrão de 3.01. (O que significaria que 8 atropelamentos está dentro de 1 desvio padrão). Alternativamente dos 16 dados da série histórica, 11 são menores que 8 e 5 não são.

Poderíamos dizer que este é o quinto pior resultado.

Uma medida mais útil de "desrespeito" a faixa de pedestres seria a proporção de atropelamentos na faixa em relação à fora da faixa. Infelizmente, não disponho do número total de atropelamentos, mas tenho os extremos (115 em 2009 e 195 em 1999). Portanto este índice deve estar entre 4.10 e 6.96%. A média até 2011 é de 3.92% com desvio de 2.55%. E isto significa que, muito provavelmente, o valor está dentro de um desvio padrão novamente. Alternativamente dos 16 dados da série histórica, 11 são menores que 4.1 e 5 não são. Já com relação a 6.96%, apenas 2 são maiores.

Poderíamos dizer que este é entre o segundo e quinto pior resultado na série histórica.

Alternativamente, poderíamos montar uma distribuição estatística:

  • p(Número de Atropelamentos na faixa < 5) = 3/8 = 0.375
  • p(5 < Número de Atropelamentos na faixa < 9) = 1/2 = 0.500
  • p(Número de atropelamentos na faixa > 9) = 1/8 = 0.125

Mas é melhor com relação a proporção:

  • p(Percentual de Atropelamentos na faixa < 4%) = 9/14 = 0.643
  • p(4% < Percentual de Atropelamentos na faixa < 7%) = 3/14 = 0.214
  • p(Percentual de Atropelamentos na faixa > 7%) = 2/14 = 0.143

Conclusão? O número de atropelamentos realmente se elevou em relação a 2011, mas não muito. Tanto no percentual, quanto no número cru ainda não estamos tão ruim quanto o jornal quer indicar...

quinta-feira, 10 de janeiro de 2013

Um modelo para falha

Já que o último post tratou da questão do risco de apagão - mostrando que o problema na realidade é o aumento no custo de operação, com a inserção de termelétricas - eu resolvi montar um modelo simples para  exemplificar o efeito da entrada das térmicas.

Vamos dizer que as térmicas tem a seguinte situação: se 50% entrarem em operação, então o custo adicional é X, se forem 100% o custo é 2X. Além disto temos a seguinte função: para reservatórios com 50% nenhuma térmica entra em operação, para 25% 50% das térmicas entram em operação,  e com 0% então 100% das térmicas entram em operação.

Muito bem: agora podemos colocar probabilidades. Vamos dizer que há 1/6 de chance de termos 50% dos reservatórios, 2/3 de chance de termos 20% e 1/6 de chance de termos 0%.

Como fica o risco nesse caso? O risco neste caso é o custo adicional. Então temos:
  • Nível esperado dos reservatórios: 1/6*50+2/3*25+1/6*0 = 25%
  • Número de térmicas médio esperado: 1/6*0+2/3*50%+1/6*100 = 50%
  • Custo esperado: 1/6*0+2/3*X+1/6*2*X = X
Bem isto é mais ou menos probabilidade básica. Com isto podemos estimar o desvio:
  • Desvio no nível esperado de reservatório: 14.44%
  • Desvio esperado no número de térmicas: 28.87%
  • Desvio esperado no custo esperado: 0.578*X
Mas o que acontece no caso de já estarmos no nível de 25% dos reservatórios? Aqui é o caso da probabilidade condicional. A distribuição se altera para:
  • Nível esperado dos reservatórios: 4/5*25+1/5*0 = 20%
  • Número de térmicas médio esperado: 4/5*50%+1/5*100 = 60%
  • Custo esperado: 4/5*X+1/5*2*X = 6/5*X
E então o desvio passa a ser:
  • Desvio no nível esperado de reservatório: 10%
  • Desvio esperado no número de térmicas: 20%
  • Desvio esperado no custo esperado: 0.4*X
Isso é o que deveríamos estar sendo informado nas análises. Probabilidades e valores esperados:

quarta-feira, 9 de janeiro de 2013

Risco e Probabilidade

No noticiário só ouço sobre o risco de apagão. Na realidade não há grande risco de apagão. O que há é um risco de se depender extensivamente de geração termelétrica e com isso ter a conta mais cara.
Apagão mesmo é difícil, mas não impossível
Devo dizer  que isto também acontece com formas alternativas de geração - a diferença é que o governo (e os ambientalistas) tratam o público como desinformados - com uma boa pitada de razão. No caso, o custo adicional é repassado aumentando o preço de outros serviços que deveriam ser mais baratos.
Energia mais cara é uma possibilidade...
Só que não é este o caso das termelétricas.
Algo deste tipo...
Dito isto, meu ponto sobre este post é discutir sobre a surpreendente falta de informação na imprensa que o risco é na realidade uma probabilidade. Se é 50% então as chances de acontecer ou não são iguais. Se é menor que 50%, há mais chance de acontecer do que não e assim por diante.
Melhor modo de mostrar a associação de risco com probabilidade
Mas, não é isso que vejo na imprensa. Aliás não vejo ninguém quantificar este risco. Só me mostram uns gráficos que não dizem praticamente nada.
Como este, por exemplo...
Se o nível dos reservatórios é de 28.54% e a referência na época do apagão de 2000 era de 28.52%, então estamos a 0.2% do apagão? Não dá para afirmar nada! Mas é possível estimar uma relação entre a queda no nível dos reservatórios e o aumento da participação de termelétricas no sistema.

Níveis de reservatórios mais baixos irão forçar um aumento nos preços da energia. Como este aumento vai ser pago é algo difícil de saber - se embutido em outros custos ou simplesmente deixando fluir...

terça-feira, 8 de janeiro de 2013

Emoções versus Emoticons ;-)

Creio que o leitor está familiarizado com o uso dos emoticons.
Emoticons...
Os emoticons foram desenvolvidos justamente para transmitir estados emocionais em textos transmitidos pela internet.

Esta é a versão oficial...

Mas suspeito que a razão é outra: um pouco de preguiça, aliada a simplificação e com pitadas de economia nos textos. Afinal dizer que o "texto não convém a emoção sentida" é, no mínimo, desconhecimento de todas as grandes obras escritas. Talvez a explicação devesse ser alterada para "não consigo transmitir bem minhas emoções em textos". O que também significa que é complicado para escrever cartas ou similares...
Transmitindo emoções através de textos - antes da internet!
Creio que a origem está na necessidade de transmitir estados de espírito, ou mesmo reações de modo rápido e curto. O texto original com o primeiro emoticon pode ser visto aqui.

Mas não deixa de ser curioso como a coisa se disseminou...

domingo, 6 de janeiro de 2013

Pesquisas e Opiniões

Fiquei pensando um bom tempo em porque certas pesquisas erram. E isto acontece de modo mais claro durante eleições.

Se olharmos as pesquisas, há uma série de suposições envolvidas para evitar o erro sistemático. Não estou supondo que há ou não viés nas mesmas. Pode até haver, mas é pouquíssimo provável que haja o mesmo viés em todas elas.

Então, pensei em um modelo que ajudasse a entender o que poderia estar acontecendo. O modelo se baseia em que a pesquisa tenta descobrir o valor médio de uma grandeza na população X através de uma amostragem. A amostragem introduz uma incerteza, que é modelada como uma variável aleatória normal û de média zero e desvio padrão definido pelo tamanho da amostra.

Então o que temos é Y = X+û. O valor obtido pela amostragem teria como centro X com um intervalo de confiança definido pelas estatísticas de û. A suposição de média zero é importante, pois indica que não há erros sistemáticos ocorrendo aqui. Efetivamente, no caso de uma eleição, a grandeza X é a probabilidade de voto de um eleitor aleatoriamente escolhido em um determinado candidato Y ao invés do candidato W. Portanto

p(vota em Y) = X

Mas na realidade, como estamos esta é uma pesquisa, não obtemos p(votar em Y), mas p(diz votar em Y). Portanto, então temos que considerar a probabilidade completa. Originalmente temos:

p(diz votar em Y) = p(diz votar em Y| vota em Y)*p(vota em Y)

E intrinsecamente supõe-se que p(diz em vota em Y | vota em Y) =1. Mas na realidade, o que pode ocorrer é (e suspeito que ocorre):

p(diz votar em Y) = p(diz votar em Y| vota em Y)*p(vota em Y) + p(diz votar em Y | vota em W)* p(vota em W).

Notem que aqui surgem uma segunda variável aleatória que pode alterar o resultado da pesquisa. Vamos a um exemplo mais prático. Em São Paulo, a última pesquisa datafolha apontou os seguintes resultados para o primeiro turno: 28% para José Serra, 27% para Russomano, 24% para Haddad, 13% para Chalita, 5% para Soninha. A última do Ibope também não foi muito diferente: 26% para José Serra, 26% para Russomano, 26% para Haddad, 13% para Chalita, 5% para Soninha. Note que tudo dentro dos 2%(Datafolha) e 3% (Ibope) de margem que geralmente é usada.

Mas o que aconteceu? Na eleição, o resultado foi: 30.75% para José Serra, 21.6% para Russomano, 28.98% para Haddad, 13.6% para Chalita, 2.65% para Soninha. Note que há um desvio considerável do resultado final para o projetado. Minha suposição é que ouve um efeito do tipo:

p(diz votar em Y) = p(diz votar em Y| vota em Y)*p(vota em Y) + p(diz votar em Y | vota em W)* p(vota em W)+p(diz votar em Y | vota em Z)* p(vota em Z)+p(diz votar em Y | vota em V)* p(vota em V).

Por exemplo:

p(diz votar em Haddad) = p(diz votar em Haddad| vota em Haddad)*p(vota em Haddad) + p(diz votar em Haddad | vota em Serra)* p(vota em Serra)+p(diz votar em Haddad| vota em Russomano)* p(vota em Russomano)+p(diz votar em Haddad| vota em Chalita)* p(vota em Chalita)+p(diz votar em Haddad| vota em Soninha)* p(vota em Soninha).

Uma vez tendo este resultado para todos os candidatos, em tese seria possível desacoplar os resultados em partes específicas. Mas o problema é que o sistema é indeterminado, por exemplo:

0.24 = p(diz votar em Haddad| vota em Haddad)*0.2898 + p(diz votar em Haddad | vota em Serra)* 0.3075+p(diz votar em Haddad| vota em Russomano)* 0.216+p(diz votar em Haddad| vota em Chalita)* 0.136+p(diz votar em Haddad| vota em Soninha)* 0.0265.

Poderíamos simplificar dessa forma:

0.24 = p(diz votar em Haddad| vota em Haddad)*0.2898 + p(diz votar em Haddad | não vota em Haddad)* 0.7102 (no caso Datafolha)

0.26 = p(diz votar em Haddad| vota em Haddad)*0.2898 + p(diz votar em Haddad | não vota em Haddad)* 0.7102 (no caso Ibope)

As duas equações são idênticas dentro da margem de erro das pesquisas. Então como descobrir? Ainda estou trabalhando nisso, mas suspeito que aqui podemos ter uma explicação para parte dos problemas com as pesquisas eleitorais.

Por que as pessoas falariam uma coisa e fariam outra? Bem, o que o leitor acha?

sábado, 5 de janeiro de 2013

Braço de Alavanca

Neste blog há momentos para idéias que surgem sem mais nem menos. E uma que me veio enquanto eu estava caminhando hoje foi a do princípio da alavanca.
É uma das máquinas mais antigas. E você achava que matemática não servia para nada...
Essencialmente, devido a uma conservação de torque, a alavanca permite transformar forças. Naturalmente é necessário que o braço de alavanca seja rígido o suficiente para suportar as forças envolvidas e que o ponto de apoio seja sólido o suficiente.
Esse é o diagrama básico de uma alavanca.
Instintivamente, é possível imaginar que, devido ao ângulo comum, e a conservação do momento angular (essencialmente a velocidade angular tem que ser a mesma dos dois lados da alavanca), o sistema tem de conservar o torque. Nesse caso a força é multiplicada e o deslocamento dividido (o deslocamento é o produto do ângulo pelo braço de alavanca - quanto menor o braço, menor o deslocamento). o análogo da alavanca na engenharia elétrica é o transformador.
O Transformador - equivalente elétrico de uma alavanca.
Mas o que o caro leitor provavelmente não sabe é que a alavanca é a base de uma série de máquinas simples que usamos no dia a dia.
Pois é, isso mesmo: até a tesoura!
E uma delas em particular...
Juro que eu não tinha percebido.

sexta-feira, 4 de janeiro de 2013

O efeito Highlander II no Brasil

Eu já escrevi em outro post sobre o efeito Highlander II: o caso de uma ação tão ruim, tão irresponsável que deixa todos pensando se todas as ações anteriores não eram ruins também. Pois com a posse de Genoíno, a impressão que fica dele é exatamente esta...
E este tipo de atitude me faz duvidar do Genoíno de antes.
E aí, quase que por acaso, eu encontro um texto que diz praticamente tudo que penso a respeito. Não costumo postar, mas aqui eu vou abrir uma exceção. O texto "A Década Perdida" é da autoria de Marco Antônio Villa (meio persona non grata de alguns). Aí vai, com alguns comentários...
Este é o historiador. Mas não gosto muito de fotos com estantes, soam exageradas...

A eleição de Luiz Inácio Lula da Silva em 2002 foi recebida como um conto de fadas. O País estaria pagando uma dívida social. E o recebedor era um operário.

Operário que tinha somente uma década de trabalho fabril, pois aos 28 anos de idade deu adeus, para sempre, à fábrica. Virou um burocrata sindical. Mesmo assim, de 1972 a 2002 - entre a entrada na diretoria do Sindicato dos Metalúrgicos de São Bernardo do Campo e a eleição presidencial -, portanto, durante 30 anos, usou e abusou do figurino do operário, trabalhador, sofrido. E pior, encontrou respaldo e legitimação por parte da intelectualidade tupiniquim, sempre com um sentimento de culpa não resolvido.

Esta questão do sentimento de culpa me soa cada vez mais real. E na realidade parece ser pior até do que soa: não é só a intelectualidade brasileira, mas toda classe média (e quiça a alta também) parece se sentir culpada por fazer mais dinheiro que o resto da população. Daí para tentarem mostrar que são "mais bonzinhos" que os demais (ou mesmo superiores na sua bondade)...

A posse - parte dos gastos paga pelo esquema do pré-mensalão, de acordo com depoimento de Marcos Valério ao Ministério Público - foi uma consagração. Logo a fantasia cedeu lugar à realidade. A mediocridade da gestão era visível. Como a proposta de governo - chamar de projeto seria um exagero - era inexequível, resolveram manter a economia no mesmo rumo, o que foi reforçado no momento da alta internacional no preço das commodities.

Quando veio a crise internacional, no final de 2008, sem capacidade gerencial e criatividade econômica, abriram o baú da História, procurando encontrar soluções do século 20 para questões do século 21. O velho Estado reapareceu e distribuiu prebendas aos seus favoritos, a sempre voraz burguesia de rapina, tão brasileira como a jabuticaba. Evidentemente que só poderia dar errado. Errado se pensarmos no futuro do País. Quando se esgotou o ciclo de crescimento mundial - como em tantas outras vezes nos últimos três séculos -, o governo ficou, como está até hoje, buscando desesperadamente algum caminho. Sem perder de vista, claro, a eleição de 2014, pois tudo gira em torno da permanência no poder por mais um longo tempo, como profetizou recentemente o sentenciado José Dirceu.

Isso soa terrivelmente familiar. Aliás, eu tenho um grande receio que Dilma Rousseff caia nesta esparrela. Parece que a idéia do Brasil Grande está no DNA do PT e seus amiguinhos...

Os bancos e as empresas estatais foram usados como instrumentos de política partidária, em correias de transmissão, para o que chamou o ministro Celso de Mello, do Supremo Tribunal Federal, de "projeto criminoso de poder", quando do julgamento do mensalão. Os cargos de direção foram loteados entre as diferentes tendências do Partido dos Trabalhadores (PT) e o restante foi entregue à saciedade dos partidos da base aliada no Congresso Nacional. O PT transformou o patrimônio nacional, construído durante décadas, em moeda para obter recursos partidários e pessoais, como ficou demonstrado em vários escândalos durante a década.

Soa terrivelmente familiar, não? Tudo que o PT acusava os outros partidos de fazer! Quem já acreditou no PT poderia ter ficado horrorizado, mas...

O PT era considerado uma novidade na política brasileira. A "novidade" deu vida nova às oligarquias. É muito difícil encontrar nos últimos 50 anos um período tão longo de poder em que os velhos oligarcas tiveram tanto poder como agora. Usaram e abusaram dos recursos públicos e transformaram seus Estados em domínios familiares perpétuos. Esse congelamento da política é o maior obstáculo ao crescimento econômico e ao enfrentamento dos problemas sociais tão conhecidos de todos.
No fundo, há muita inveja de não estar sendo listado na imagem...
Ou seja, a diferença do PT com relação aos que se opunha era... nenhuma. Bem talvez eu esteja sendo exagerado: a diferença é que o PT (na realidade os apoiadores e membros) sentava no próprio rabo e apontava o rabo dos outros.

Não será tarefa fácil retirar o PT do poder. Foi criado um sólido bloco de sustentação que - enquanto a economia permitir - satisfaz o topo e a base da pirâmide. Na base, com os programas assistenciais que petrificam a miséria, mas garantem apoio político e algum tipo de satisfação econômica aos que vivem na pobreza absoluta. No topo, atendendo ao grande capital com uma política de cofres abertos, em que tudo pode, basta ser amigo do rei - a rainha é secundária.

A incapacidade da oposição de cumprir o seu papel facilitou em muito o domínio petista. Deu até um grau de eficiência política que o PT nunca teve. E o ano de 2005 foi o ponto de inflexão, quando a oposição, em meio ao escândalo do mensalão, e com a popularidade de Lula atingindo seu nível mais baixo, se omitiu, temendo perturbar a "paz social". Seu principal líder, Fernando Henrique Cardoso, disse que Lula já estava derrotado e bastaria levá-lo nas cordas até o ano seguinte para vencê-lo facilmente nas urnas. Como de hábito, a análise estava absolutamente equivocada. E a tragédia que vivemos é, em grande parte, devida a esse grave erro de 2005. Mas, apesar da oposição digna de uma ópera-bufa, os eleitores nunca deram ao PT, nas eleições presidenciais, uma vitória no primeiro turno.
Eu sou do bem! Eu sou melhor que você! Meu relógio custa  a cesta básica de três famílias! O que eu pago de manicure  então...
E aqui suspeito que este sentimento de culpa acaba por facilitar este tipo de situação.

O PT não esconde o que deseja. Sua direção partidária já ordenou aos milicianos que devem concentrar os seus ataques na imprensa e no Poder Judiciário. São os únicos obstáculos que ainda encontram pelo caminho. E até com ameaças diretas, como a feita na mensagem natalina - natalina, leitores! - de Gilberto Carvalho - ex-seminarista, registre-se - de que "o bicho vai pegar". A tarefa para 2013 é impor na agenda política o controle social da mídia e do Judiciário. Sabem que não será tarefa fácil, porém a simples ameaça pode-se transformar em instrumento de coação. O PT tem ódio das liberdades democráticas. Sabe que elas são o único obstáculo para o seu "projeto histórico". E eles não vão perdoar jamais que a direção petista de 2002 esteja hoje condenada à cadeia.
Se não dá para calar a boca com dinheiro, então coerção é a opção!
Bom, vamos ser justos: o PT construiu sua imagem falando mal dos outros. Ele sabe a importância que isso tem. Ele só quer manter o monopólio e evitar que os outros falem mal dele, mesmo que estejam cobertos de razão.

A década petista terminou. E nada melhor para ilustrar o fracasso do que o crescimento do produto interno bruto (PIB) de 1%. Foi uma década perdida. Não para os petistas e seus acólitos, claro. Estes enriqueceram, buscaram algum refinamento material e até ficaram "chiques", como a Rosemary Nóvoa de Noronha, sua melhor tradução. Mas o Brasil perdeu.

Aí, eu não tenho tanta certeza. Nunca subestime o sentimento de culpa e a capacidade de racionalização de quem está claramente encostando na parede.

Poderíamos ter avançado melhorando a gestão pública e enfrentado com eficiência os nossos velhos problemas sociais, aqueles que os marqueteiros exploram a cada dois anos nos períodos eleitorais. Quase nada foi feito - basta citar a tragédia do saneamento básico ou os milhões de analfabetos.

E o que dizer da tragédia do Rio? Somos um país sem grandes eventos climáticos inesperados. Mas com grandes efeitos climáticos esperados. E ainda colocam a culpa em São Pedro... Ó quanta cara de pau!
E reelegem os responsáveis que não fizeram nada! A culpa é de quem, então?
Mas se estagnamos, outros países avançaram. E o Brasil continua a ser, como dizia Monteiro Lobato, "essa coisa inerme e enorme".


Pois é...

Usando o Modelo da Moeda Honesta

Apesar de ter termos ad-hoc, o modelo da moeda honesta é embasado no teorema de Bayes e na sua iteração para determinar o "convencimento" de um usuário que a moeda é ou não honesta.

A base continua sendo o update de p(moeda é honesta | N -1 caras) e p(N caras | moeda não é honesta). Podemos inclusive escrever recursivamente:

  • p_N = p(moeda é honesta | N caras)
  • p_(N+1) =  p(moeda é honesta | N+1 caras)
  • p_(N+1)=p_N/[p_N+(1-p_N)*N]

O termo quando N=0 indica a confiança inicial na estimativa p(moeda é honesta | 0 caras). No post anterior, eu fiz este estudo para um usuário que tivesse 99.9% de confiança que a moeda era honesta e fosse gradualmente convencido até a sétima jogada que a chance dela ser honesta era apenas de 16.5%.

Mas podemos usar o mesmo argumento para uma um caso oposto: aonde o usuário parte de 50% de confiança e vai gradualmente sendo modificado:

  • N=1 - confiança de 50%
  • N=2 - confiança de 66.6%
  • N=3 - confiança de 85.7%
  • N=4 - confiança de 96%
  • N=5 - confiança de 99.2%
  • N=6 - confiança de 99.86%
  • N=7 - confiança de 99.98%

Então vemos que com 6 repetições chegamos a um convencimento de 99.9%. Este modelo pode exemplificar o processo de convencimento de uma nova idéia, ou coisa similar.

Talvez o sete bíblico tenha realmente algum fundo empírico...

quinta-feira, 3 de janeiro de 2013

Continuando o último post

Sumarizando temos:
p(moeda é honesta | N-K caras) = p(N-K caras e K coroas| moeda é honesta)*p(moeda é honesta)/[ p(N-K caras e K coroas | moeda é honesta)*p(moeda é honesta) + p(N-K caras e K coroas | moeda não é honesta) *(1-p(moeda é honesta))]

Eu fiz o caso de 8 caras obtidas através de repetição, ou seja p(8 caras | moeda é honesta) =0.39% e p(8 caras | moeda não é honesta) = 1.68% (60-40%). No entanto poderia ter utilizado outro caso, como por exemplo 6 caras e 2 coroas (10.94% e 20.92% respectivamente). No caso de 50% de confiança inicial, a confiança teria caído a 34.34%. Se fosse 75%, teria caído para 61.07%.

Mas ao fazermos uma progressão dos resultados, observamos um fenômeno interessante. Se tivermos 4 caras e 4 coroas, então a confiança sobe de 50% para 54.08%. Por que?: A razão é que supomos um viés da moeda não honesta de caras (60-40). E 4 caras e 4 coroas é bem próximo a média esperada, o que indica que este viés provavelmente não existe. Já se aumentarmos para 3 caras e 5 coroas, a confiança sobe para 63.84%, e aí a razão é que supomos um viés do tipo 60-40% para cara, quando não realidade não saberíamos de antemão de quanto é esse viés.
O fato é se o viés for pequeno (51-49% ou 49-51%, por exemplo) e tivermos 90% de confiança que a moeda é honesta, ao tiramos 8 caras (ou 8 coroas) teremos de reduzir nossa confiança de 90% para 88.48%. Se tiramos 100 caras (ou 100 coroas), então a redução terá de ser de 90% para 55.4% - ou praticamente não é possível afirmar que a moeda seja honesta.

Um experimento interessante é iterar este resultado. Vamos começar supondo um viés pequeno e começarmos com 99.90% de confiança. Com uma repetição: teremos caído para 99.894%. Assim com N jogadas:
  • N=2 - confiança 99.894%
  • N=3 - confiança 99.887%
  • N=4 - confiança 99.878%
  • N=5 - confiança 99.865%
  • N=6 - confiança 99.849%
  • N=7 - confiança 99.826%
  • N=8 - confiança 99.796%
Mas há um problema com isso... Ao imaginarmos mais de 5 caras consecutivas, nossa mente começa a suspeitar que a moeda não pode ser honesta. Nesse ponto precisamos fazer um update do nosso viés. Minha suposição é fazer p(viés| cara N vezes) = p(sem viés | cara N-1 vezes e coroa 1 vez). Por que? Bem, não tenho uma razão explícita, apenas um sentimento. No caso teremos  p(viés| cara N vezes) = N*(0.5)^(N). Assim podermos fazer. Assim temos:
  • N=2 - confiança 99.8%
  • N=3 - confiança 99.4%
  • N=4 - confiança 97.7%
  • N=5 - confiança 89.3%
  • N=6 - confiança 58.1%
  • N=7 - confiança 16.5%
  • N=8 - confiança 2.8%
Isso parece mais razoável... Note que isso se aplica a jogadas consecutivas. O que o valor de 2.8% de confiança significa é que há uma chance de 97.2% que a moeda não seja honesta. Então neste caso a fórmula pode ser reescrita como:
  • p(moeda é honesta) = p(moeda é honesta | N-1 caras)
  • p(N caras| moeda é honesta) = 0.5^N
  • p(N caras| moeda não é honesta) = N*0.5^N = N*p^(N-1)*q^N
  • p(moeda é honesta | N caras) = p(N caras| moeda é honesta)*p(moeda é honesta)/[ p(N  caras| moeda é honesta)*p(moeda é honesta) + p(N caras| moeda não é honesta) *(1-p(moeda é honesta))]
  • p(moeda é honesta) =  p(moeda é honesta | N caras)
  • repete-se
Pelo menos faz sentido

quarta-feira, 2 de janeiro de 2013

Confiança e Probabilidade

A teoria das probabilidades nos ensina muito. Mas um detalhe sempre me chamou a atenção no teorema de Bayes: como você ajusta as probabilidades uma vez que se tem mais conhecimento da questão.
O teorema é desse camarada aqui.
Em outras palavras, a probabilidade de um evento A (digamos chover), pode ser escrita como a combinação das probabilidades de chover dado que o céu está encoberto (B) e chover dado que o céu não está encoberto (não B). Em suma:

p(A)= p(A|B)*p(B)+p(A| não B)* p(não B)

Isto pode variar de dia para dia, de mês a mês ou mesmo de ano a ano. Mas como fazemos o update nisso? Há aqui uma pressuposição que conhecemos estas probabilidades. Mas e se estamos tentando decidir?

Um exemplo: como determinar se uma moeda é honesta ou não? Vamos supor que eu apresente uma moeda, como é que você descobre se ela é honesta? Uma idéia é fazer repetições do lançamento da moeda.
Nosso laboratório para este post.
Vamos primeiro dizer que ela é honesta (50% de chance para cara e 50% para coroa).

Se eu fizer uma repetição terei:

  • 50% de tirar uma cara e uma coroa, 
  • 25% de tirar duas caras e 
  • 25% de tirar duas coroas. 

Se eu aumentar as repetições para quatro terei:

  • 6.25% de tirar 4 caras, 
  • 25% de tirar 3 caras e uma coroa, 
  • 25% de tirar uma coroa de 3 caras, 
  • 37.5% de tirar duas caras e duas coroas e 
  • 6.25% de tirar 4 coroas. 

Por fim, se eu fizer 8 repetições:

  • 0.390625% de tirar 8 caras
  • 3.125% de tirar 7 caras e 1 coroa
  • 10.9375% de tirar 6 caras e 2 coroas
  • 21.875% de tirar 5 caras e 3 coroas
  • 27.34375% de tirar 4 caras e 4 coroas
  • 21.875% de tirar 3 caras e 5 coroas
  • 10.9375% de tirar 2 caras e 6 coroas
  • 3.125% de tirar 1 cara e 7 coroas
  • 0.390625% de tirar 8 coroas

Isto é claro se a moeda for honesta. Mas e se ela não for? Neste caso como saber? Um modo é fazer esta conta para supostas desigualdades e ver como fica a diferença.

Então vamos ao caso de uma moeda não muito honesta: 60% para cara e 40% para coroa.

Com uma repetição:

  • 36% de tirar 2 caras
  • 48% de tirar 1 cara e uma coroa
  • 16% de tirar 2 coroas.

Aumentando o número de repetições para quatro temos:

  • 12.96% de tirar 4 caras
  • 34.56% de tirar 3 caras e 1 coroa
  • 34.56% de tirar 2 caras e 2 coroas
  • 15.36% de tirar 1 cara e 3 coroas
  • 2.56% de tirar 4 coroas

Já com oito repetições temos:

  • 1.679616% de tirar 8 caras
  • 8.957952% de tirar 7 caras e 1 coroa
  • 20.90188% de tirar 6 caras e 2 coroas
  • 27.86918% de tirar 5 caras e 3 coroas
  • 23.22432% de tirar 4 caras e 4 coroas
  • 12.3863% de tirar 3 caras e 5 coroas
  • 4.12876% de tirar 2 caras e 6 coroas
  • 0.786432% de tirar 1 cara e 7 coroas
  • 0.0065536% de tirar 8 coroas

Bem, claramente há um viés visível. Mas como aproveitá-lo para tomar uma decisão se a moeda é ou não honesta? Eu não sei direito ainda mas creio que temos que pensar em algo do tipo eu joguei a moeda N vezes e tive N-K caras, qual é a chance que a moeda seja honesta? Ou seja p(moeda honesta | N-K caras)...

Só o que temos aqui é é p(N-K caras | moeda é honesta). Por exemplo, se temos 8 lançamentos e saem 8 caras temos p( 8 caras | moeda é honesta ) = 0.390625%. Mas o que queremos é p(moeda é honesta | 8 caras). Originalmente a formulação seria a seguinte:


  • p(moeda é honesta) = p(moeda é honesta | 8 caras)*p(8 caras) + p(moeda é honesta | não 8 caras)*p(não 8 caras)
  • p(8 caras)=p(8 caras | moeda é honesta)*p(moeda é honesta)+p(8 caras | a moeda não é honesta)*p(moeda não é honesta).

E a equação:

  • p(moeda é honesta | 8 caras) *p(8 caras)= p(8 caras | moeda é honesta)*p(moeda é honesta)

Evidentemente se a moeda é honesta então p(moeda é honesta) =1 e p(moeda não é honesta) = 0. Logo

  • p(8 caras)=p(8 caras | moeda é honesta)*1+p(8 caras | a moeda não é honesta)*0.
  • p(moeda é honesta | 8 caras) *p(8 caras)= p(8 caras | moeda é honesta)*1
  • 1 = p(moeda é honesta | 8 caras)*p(8 caras) + p(moeda é honesta | não 8 caras)*p(não 8 caras)

O que resulta em: p(moeda é honesta | 8 caras) = 1. Mas isso pressupõe que a moeda é honesta! Vamos supor que haja 50% de chance da moeda ser honesta. Mais ainda, vamos supor que a moeda pode ter um desbalanço de 60% a 40% como mostrado antes... Dessa forma:

  • p(8 caras) = p(8 caras | moeda é honesta)*p(moeda é honesta)+p(8 caras | moeda não é honesta)*p(moeda não é honesta) = .390625e-2*0.5+.1679616e-1*0.5= .1035120500e-1
  • p(moeda é honesta | 8 caras) *p(8 caras) = p(8 caras | moeda é honesta)*p(moeda é honesta) = p(moeda é honesta | 8 caras) *.1035120500e-1=.390625e-2*0.5 = .1886857617

Ou seja temos 18.9% de confiança que a moeda é honesta dado que em 8 repetições foram 8 caras (ou 81.1% de certeza que a moeda não é honesta). Se a proporção fosse de 70% a 30% teríamos 6.4% de confiança que a moeda é honesta, se fosse de 55% a 45% teríamos 31.8% de confiança que a moeda é honesta e se a proporção fosse de 51% a 49% teríamos 46.1% de confiança que a moeda é honesta.

Mas não acaba aqui. Podemos também "brincar" com o limiar de moeda honesta. Vamos supor que ao invés de 50% de chance que a moeda não seja honesta, este limiar passe a ser de 55%. Nesse caso a confiança cai para 16% de que a moeda é honesta (proporção de 60% a 40%). Se a chance for de 60% então a confiança cai para 13.4%, e se a chance for de 75%, a confiança cai para 7.2%.

Agora vamos a outra situação diferente: vamos supor que sua confiança que a moeda seja honesta é de 75%. Qual passa ser a confiança supondo 60-40% de proporção na moeda desonesta, após 8 caras consecutivas: ela cai de 75% para 41.1%. Na suposição que seja na proporção 51-49% a confiança cai para 72%, e na suposição que seja 55-45% a confiança cai a 58.32%

Creio que dá para tirar algumas curvas daqui, vamos ver em outro post