Colaboração via Auto-Ajuste ou Retaliação

[OBS: para melhor aproveitar este artigo, sugiro primeiro ler o O que é o Dilema dos Prisioneiros como introdução]

Em que condições a cooperação surgirá num mundo de egoístas sem uma autoridade central? Essa foi uma das questões que Robert Axelrod trabalhou para elaborar um estudo que resultou no livro The Evolution of Cooperation. [NOTA 1]

Aqui entra em cena o conceito de reciprocidade, ou como dizem alguns autores, "você coça minhas costas, depois eu coço a sua". Eu colaboro com você, então você colabora comigo. Mas sabendo que as pessoas respondem a incentivos, e que a recompensa por uma traição é maior, o que garante que eu não vou trair?

Como Axelrod coloca, nas situações em que cada indivíduo tem um incentivo para ser egoísta, como a cooperação pode se desenvolver? A resposta para este dilema, segundo os cientistas em Teoria dos Jogos, está na repetição infinita das interações entre os jogadores. O que torna possível a cooperação é o fato dos jogadores poderem se encontrarem várias vezes. Traduzindo: vou colaborar porque sofrerei retaliação se eu trair, e é melhor você colaborar comigo pois vou retaliá-lo se você me trair. A traição mútua não é vantajosa para ninguém.

O conceito é simples e intuitivo, mas foi sistematizado e provado. O estudo mais conhecido sobre interações repetitivas do jogo do Dilema dos Prisioneiros foi um concurso de computador conduzido por Axelrod em 1980. Ele convidou várias pessoas renomadas em Teoria dos Jogos, Psicologia, Sociologia, Ciências Políticas e Economia para submeter estratégias interativas para um concurso via por computador. O computador era apenas para ter velocidade na simulação (o concurso poderia ser feito com várias pessoas presentes, lápis e papel).

Como definição, uma estratégia é uma sequência de regras de decisão, é uma especificação do que fazer em qualquer situação que possa surgir. Uma estratégia pode ser cooperar durante alguns padrões e trair em outros, ela pode usar probabilidades, pode usar o padrão do concorrente e de resultados para decidir o que fazer em seguida. Neste concurso, a estratégia deveria especificar o que fazer a cada interação do Dilema dos Prisioneiros e poderia usar todo histórico de interação (sua e do oponente). Para cada jogada, o resultado era em pontos, como na matriz abaixo.

Jogador B

Colaborar

Trair

Jogador A

Colaborar

3 , 3	0 , 5
5 , 0	1 , 1

Trair

Relembrando, esse esquema de pontução relembra o esquema do Dilema dos Prisioneiros. Duas pessoas estão em um jogo. Eles precisam escolher entre duas opções: Cooperar ou Trair. As possíveis combinações são:

1. Se ambos cooperarem, cada um ganha 3 pontos como Recompensa.
2. Se ambos trairem, cada um ganha 1 ponto, que é a Punição por falharem em juntar forças.
3. Se um trair enquanto o outro coopera, o traidor recebe 5 pontos (que é a Tentação) e o colaborador não recebe nada (é o Idiota).

Como um jogodor racional irá jogar? Traindo, é claro. Esta é a resposta correta, não importando o que ou outro vai fazer, porque:
- Se o outro jogador vai Cooperar, então você ganha 5 pontos ao Trair ou 3 pontos ao Cooperar. Melhor trair.
- Se o outro jogador vai Trair, então você ganha 1 ponto ao Trair ou 0 pontos ao Cooperar. Melhor trair.

O problema é que o outro jogador, sendo racional também, pensa exatamente da mesma forma. Como resultado, ambos acabam ganhando apenas 1 ponto, muito menos se existisse uma cooperação mútua, pois poderiam ganhar 3 pontos. Como Karl Sigmund coloca, o Dilema do Prisioneiro não é, de fato, um dilema, pois trair é a única opção racional [Nota 2]. Então, como conseguir a cooperação? A resposta está na repetição do jogo, como foi demonstrado no concurso.

Neste torneio, cada programa competia com todos os outros programas (inclusive com ele mesmo) e os pontos eram acumulativos. Cada jogo consistia em 200 jogadas. Como é possível ganhar 5 pontos em cada jogada, teoricamente a pontuação final varia de 0 a 1.000. Por exemplo: quando uma estratégia "Sempre Cooperar" joga contra uma estratégia "Sempre Trair", quem cooperar soma 0 pontos e quem trai soma 1.000 pontos. Uma pontuação razoável é ganhar 3 em todas as 200 interações quando ambos cooperam toda vez, somando 600 pontos.

Importante mencionar que não há uma estratégia certa pois depende contra qual adversário você está jogando. Nenhuma estratégia é melhor independente da estratégia do outro. Por exemplo, se jogar contra um programa que sempre colabora, a sua melhor estratégia é trair sempre pois consegue 5 pontos a todo momento. O problema é que nem sempre você sabe contra quem está jogando; não é porque seu oponente cooperou 2 vezes é que ele irá cooperar as 200 jogadas. O inverso também é verdade; se você encontrar um jogador que sempre trai, então melhor trair pois ao menos você consegue 1 ponto no lugar de zero.

Jogar contra um jogador que sempre colabora ou sempre trai é muito simples. Mas na prática o seu oponente reage conforme a sua jogada e conforme as crenças que ele tem sobre você. Além disso, o concurso não esperava encontrar a estratégia mais bondosa, mais ética. O que ele esperava era descobrir qual a estratégia que somaria pontos, considerando que os jogadores não podiam se comunicar e que levavam em conta, a cada momento, as decisões do passado como aprendizado.

Neste primeiro concurso, quatorze estratégias foram inscritas. Axelrod acrescentou mais um jogador com uma estratégia "Aleatória" (50% entre cooperar e trair). A estratégia inscrita mais longa teve 77 linhas de código de programa, e esta foi obteve a pior resultado de 282,2 pontos em média. A estratégia aleatória foi um pouco pior, com 276,3 pontos.

OLHO POR OLHO

A estratégia com maior pontuação foi também a estratégia mais simples. Enviada por Anatol Rapopor, foi chamada de OLHO POR OLHO (em inglês, TIT FOR TAT). Ela tinha 4 linhas de código e pode ser explica numa sentença: coopere na primeira jogada, depois faça o que o outro jogador fez na jogada passada. OLHO POR OLHO fez em média 504,5 pontos. Contra estratégias específicas a pontuação variou do menor score de 225 pontos até o máximo de 600 pontos. [NOTA 3]

William Poundstone explica bem o sucesso desta estratégia. [NOTA 4]

Por que a estratégia OLHO POR OLHO é tão efetiva?

Primeiro, ela é uma estratégia gentil pois nunca é a primeira a trair. Ela começa colaborando e dá ao oponente o benefício da dúvida. Se a outra estratégia retornar o favor e continuar assim, OLHO POR OLHO nunca trai. Ela não arranja encrenca e fica contente se assim continuar. Quando OLHO POR OLHO joga contra si mesmo, ambos começam cooperando e nunca provocam o outro.

Para se ter noção, os oito primeiros classificados tinham uma estratégia gentil, ou seja, nunca ser o primeiro a trair. Os outros não eram. As estratégias gentis pontuaram entre 472 e 504 pontos. A estratégia não-gentil melhor classificada obteve 401 pontos. Assim, não ser o primeiro a trair era uma propriedade que separava as estratégias mais bem-sucedidas das menos bem-sucedidas.

Segundo, OLHO POR OLHO também é provocativa. Ela trai em resposta a uma traição. Depois da segunda rodada, ela responde a provocação do outro na mesma moeda. Se a outra estratégia trai na jogada 5, então OLHO POR OLHO trai na rodada 6.

Terceiro, outro grande predicado de OLHO POR OLHO é o perdão. Ela não é draconiana a ponto de uma simples transgressão levar a traição perpétua. Ela sempre está disposto a cooperar a medida que o oponente queira cooperar. Se a outra estratégia cooperar, então OLHO POR OLHO volta a cooperar para sempre.

Quarto, além de ser gentil, provocativa e disposta ao perdão, OLHO POR OLHO é uma estratégia simples. Ela ameaça "faça ao outro o que eles fizerem com você". A ameaça faz parte do seu comportamento estratégico, e OLHO POR OLHO cumpre a promessa ao repetir a ação mais recente do oponente na esperança que a outra estratégia perceba isso. Interessante é que OLHO POR OLHO pune a traição do adversário de imediato, na próxima jogada. Essa estratégia é melhor que outras, do tipo "contar até 10 antes de ficar zangado" (ou seja, deixar um certo número de traições antes de retaliar).

Quinto, outra qualidade importante do OLHO POR OLHO é que sua estratégia não é segredo. Alguém jogando OLHO POR OLHO não precisa ter medo que o oponente descubra sua estratégia. Pelo contrário, é bom que o oponente saiba disso. Quando se joga contra OLHO POR OLHO, ninguém pode se sair melhor do que cooperar. Isso faz dela uma estratégia muito estável.

O primeiro concurso de Axelrod não foi tão conclusivo porque a pontuação de uma estratégia depende da combinação com outras estratégias. Como foram inscritos apenas 14 programas, seria provável que não representassem todas as estratégias possíveis no mundo. Por isso Axelrod promoveu um segundo concurso e informou o resultado do primeiro e do sucesso do OLHO POR OLHO. Estava implícito que agora o desafio era vencer OLHO POR OLHO. No total, foram inscritos 62 programas de 6 países. Apesar da forte concorrência, OLHO POR OLHO venceu novamente.

O mais interessante é que OLHO POR OLHO ganhou sem explorar nenhuma outra estratégia. Ainda, OLHO POR OLHO não venceu ninguém em particular, mas mesmo assim ganhou o concurso. As estratégias foram chamadas para competir, e não colaborar. Ou seja, o objetivo era somar mais pontos, mesmo se precisasse trair. Não havia julgamento moral, trair fazia parte legítima do jogo. E o intrigante é que a estratégia vencedora, o OLHO POR OLHO, prega a colaboração; quem mais colaborou ganhou mais pontos somando todos os jogos.

O próprio Axelrod no seu livro conclui: "OLHO POR OLHO venceu o torneio porque ele foi bom nas suas interações com uma grande variedade de outras estratégias. Em média, foi melhor do que qualquer outra regra contra as outras estratégias no torneio. No entanto, OLHO POR OLHO não pontuou melhor em nenhum jogo comparado com seu o adversário! Na verdade, ele não pode. Ele deixa o outro jogador trair primeiro, depois nunca escolhe trair mais vezes que os outros jogadores traiam. Portanto, OLHO POR OLHO atinge sempre a mesma pontuação que o outro jogador, ou pouco menos. OLHO POR OLHO venceu o concurso não por ganhar dos outros jogadores, mas sim forçando o comportamento do outro jogador e deixando-o fazer o bem. OLHO POR OLHO foi tão consistente em proporcionar resultados mutuamente gratificantes que alcançou maior pontuação geral do que qualquer outra estratégia".

Uso da OLHO POR OLHO na vida real

Em resumo, a estratégia OLHO POR OLHO educa o oponente para a cooperação. Na vida real, se você trair, na próxima rodada seu oponente irá te trair e criar uma situação indesejável. Por isso, você tem incentivos para colaborar e dar o exemplo para que nas próximas interações vocês consigam uma situação de ganha-ganha. Mas se você cooperar para dar o exemplo e ele trair para se aproveitar da situação? Daí você retribui com uma retaliação na sequência. Se ele colaborar, você perdoa e volta a colaborar.

Mas será que a simples repetição da interações e convivência leva a cooperação? Karl Sigmund defende que se o número de interações é conhecido com antecedência por ambos jogadores, não haverá cooperação. A última rodada da série é o simples Dilema do Prisoneiro de uma jogada só e o resultado já é conhecido: a traição, pois não haverá próxima oportunidade para sofrer a retaliação. Nesta última interação, trair não traz consequência de retaliação e não afetará as próximas rodadas (que não existirão). Uma vez que passado é passado, nem a gratidão nem a vingança terão efeito e assim não há motivos para desviar a estratégia de maximizar o ganho ao trair.

Uma vez a última interação já está definida (trair), o que acontecerá na penúltima jogada? A mesma coisa (trair), pois não há incentivo para colaborar se você sabe que o adversário vai trair pelo mesmo raciocínio - a penúltima jogada tem as mesmas características da última jogada. Retroagindo o raciocínio para todas as jogadas, descobre-se que não haverá colaboração em nenhum ponto se ambos pensarem racionalmente. E se você não pensar assim, e seu adversário sim, ele usará sempre a traição e, sabendo disso, colaborar dará ganhos bem menores.

E aí? Nunca existirá cooperação?

Em um jogo repetido, é a expectativa de futuros encontros que faz a cooperação ser mais atraente. O fim das interações não deve ser conhecido com antecedência, deve sempre existir alguma probabilidade de uma próxima jogada. Este é o significado da expressão "O mundo dá voltas" e o poder educativo de deixar claro a sua estratégia OLHO POR OLHO: "Você coça as minhas costas e eu coço as suas, mas se você trair, saiba que o mundo dá voltas, voltaremos a nos encontrar e revidarei com traição. Então é melhor para todos colaborar desde já, como eu estou fazendo desde o início - sempre colaboro, eu perdoo, mas não sou idiota".