El dilema del prisionero es un problema fundamental de la teoría de juegos
que muestra que dos personas pueden no cooperar incluso si en ello va
el interes de ambas. Fue desarrollado originariamente por Merrill Flood
y Melvin Dresher mientras trabajaban en RAND en 1950. Albert W. Tucker
formalizó el juego con la frase sobre las recompensas penitenciarias y
le dió el nombre del "dilema del prisionero" (Poundstone, 1995).
Es un ejemplo de problema de suma no nula. Las técnicas de análisis de la teoría de juegos estándar, por ejemplo determinar el equilibrio de Nash, pueden llevar a cada jugador a escoger traicionar al otro, pero ambos jugadores obtendrían un resultado mejor si colaborasen.
En el dilema del prisionero iterado, la cooperación puede
obtenerse como un resultado de equilibrio. Aquí se juega repetidamente,
por lo que, cuando se repite el juego, se ofrece a cada jugador la
oportunidad de castigar al otro jugador por la no cooperación en juegos
anteriores. Así, el incentivo para defraudar puede ser superado por la
amenaza del castigo, lo que conduce a un resultado cooperativo.
[editar] El dilema del prisionero clásico
La enunciación clásica del dilema del prisionero es:
- La policía arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su cómplice no, el cómplice será condenado a la pena total, diez años, y el primero será liberado. Si uno calla y el cómplice confiesa, el primero recibirá esa pena y será el cómplice quien salga libre. Si ambos confiesan, ambos serán condenados a seis años. Si ambos lo niegan, todo lo que podrán hacer será encerrarlos durante seis meses por un cargo menor.
Lo que puede resumirse como:
Tú confiesas | Tú lo niegas | |
---|---|---|
Él confiesa | Ambos son condenados a 6 años. | Él sale libre; tú eres condenado a 10 años |
Él lo niega | Él es condenado a 10 años; tú sales libre | Ambos son condenados a 6 meses. |
Vamos a suponer que ambos prisioneros son completamente egoístas
y su única meta es reducir su propia estancia en la cárcel. Como
prisioneros tienen dos opciones: cooperar con su cómplice y permanecer
callado, o traicionar a su cómplice y confesar. El resultado de cada elección
depende de la elección del cómplice. Por desgracia, uno no conoce qué
ha elegido hacer el otro. Incluso si pudiesen hablar entre sí, no
podrían estar seguros de confiar mutuamente.
Si uno espera que el cómplice escoja cooperar con él y permanecer en
silencio, la opción óptima para el primero sería confesar, lo que
significaría que sería liberado inmediatamente, mientras el cómplice
tendrá que cumplir una condena de 10 años. Si espera que su cómplice
decida confesar, la mejor opción es confesar también, ya que al menos
no recibirá la condena completa de 10 años, y sólo tendrá que esperar
6, al igual que el cómplice. Y, sin embargo, si ambos decidiesen
cooperar y permanecer en silencio, ambos serían liberados en sólo 6
meses.
Confesar es una estrategia dominante
para ambos jugadores. Sea cual sea la elección del otro jugador, pueden
reducir siempre su sentencia confesando. Por desgracia para los
prisioneros, esto conduce a un resultado regular, en el que ambos
confiesan y ambos reciben largas condenas. Aquí se encuentra el punto
clave del dilema. El resultado de las interacciones individuales
produce un resultado que no es óptimo -en el sentido de eficiencia de Pareto-;
existe una situación tal que la utilidad de uno de los detenidos podría
mejorar (incluso la de ambos) sin que esto implique un empeoramiento
para el resto. En otras palabras, el resultado en el cual ambos
detenidos no confiesan domina al resultado en el cual los dos eligen
confesar.
Si se razona desde la perspectiva del interés óptimo del grupo (de
los dos prisioneros), el resultado correcto sería que ambos cooperasen,
ya que esto reduciría el tiempo total de condena del grupo a un total
de un año. Cualquier otra decisión sería peor para ambos si se
consideran conjuntamente. A pesar de ello, si siguen sus propios
intereses egoístas, cada uno de los dos prisioneros recibirá una
sentencia dura.
Si has tenido una oportunidad para castigar al otro jugador por
confesar, entonces un resultado cooperativo puede mantenerse. La forma
iterada de este juego (mencionada más abajo) ofrece una oportunidad
para este tipo de castigo. En ese juego, si el cómplice traiciona y confiesa una vez, se le puede castigar traicionándolo a la próxima. Así, el juego iterado ofrece una opción de castigo que está ausente en el modo clásico del juego.
Una opción es considerar este dilema como una simple "máquina de la verdad".
El jugador puede tomar no dos, sino tres opciones: cooperar, no
cooperar o, sencillamente, no jugar. La respuesta lógica en este caso
es "no jugar", pues el prisionero carece de información suficiente para
jugar correctamente: no sabe cuál será la opción de su compañero. No
hay tal dilema, pues no es posible el juego. Si juega, se trata de una
"apuesta", más que de una solución lógica.
Pensemos también que el prisionero en realidad está "jugando" con su
carcelero, no con el otro prisionero. El carcelero le ofrece una
opción. Para él, la mayor ganancia sería condenar al prisionero a la
pena mayor, pues ése es su trabajo. Si logra condenar a los dos a la
máxima pena, doble ganancia. El prisionero sabe eso, en el fondo. Sólo
"jugaría" si supiera con todo certeza que el policía cumpliría su
palabra a pesar de su confesión. Pero tampoco lo sabe. En realidad,
prisionero-carcelero y prisionero-prisionero están jugando al mismo
juego: verdad o mentira.
Tú eres sincero | Tú mientes | |
---|---|---|
Él es sincero | Máximo beneficio común | Tú ganas, él pierde |
Él miente | Él gana, tú pierdes | Máximo perjuicio común |
En este caso, decir la verdad equivale a cooperar, a callarse. Pero
un jugador sólo optará por la casilla "verdad" si sabe que el otro
jugador también opta por la misma solución. En la vida real, eso no lo
sabemos: hay que "jugar", es decir, arriesgarse. Todo se basa en la "relación de confianza"
existente entre los dos jugadores. Pongamos, por ejemplo, que los dos
prisioneros son hermanos, con una relación de confianza muy estrecha. O
que lo son uno de los prisioneros y el carcelero. Entonces sí sabrían
(casi con toda seguridad, pero nunca completa) cuál sería la opción de
su compañero, y entonces siempre jugarían correctamente: cooperarían.
La única solución lógica es, por tanto, decir la verdad. Y además
será la que dará el máximo beneficio común. Este planteamiento nos
lleva a la correcta solución del dilema, que es decir la verdad,
cooperar. Pero en este caso el error estaba en el planteamiento
correcto del dilema, que no es pensar en nuestro beneficio (ser
egoísta) sino en el del "otro" (ser generoso). En este caso, jugando a
"verdad" siempre conseguiremos que el "otro" gane. Si el objetivo del
juego es que siempre gane el rival, hay pues una única solución lógica,
y que no depende de la jugada del rival. Dilema resuelto.
Una solución "incorrecta" sería en el caso que el hermano traicione
al hermano. Aun así, el juego es correcto (pues todo juego tiene una y
sólo una solución lógica). Lo que ha sucedido es que ha cambiado el
nombre del juego: ahora lo podríamos llamar "Descubre al mentiroso".
Hemos ganado, pues descubrimos a un mentiroso.
Tú ganas | Tú pierdes | |
---|---|---|
Él gana | Los dos dijeron la verdad | Él mintió |
Él pierde | Tú mentiste | Lo dos mintieron |
Es entonces una auténtica "máquina de la verdad".
El dilema del prisionero es pues siempre un juego dual; pero siempre
tiene una solución lógica. Si los dos juegan lógicamente, es decir, con
honestidad, el juego es beneficioso para ambos. Si uno engaña y el otro
no, el juego se llama "Descubre al Mentiroso", y ambos vuelven a ganar.
Pero si pensamos en el Dilema como búsqueda egoísta, y no generosa,
la jugada "incorrecta" del dilema impide la iteración, luego finaliza
el juego. Por esa razón, el jugador "ilógico" siempre tendrá dos
objetivos: uno, engañar al honesto; y dos, convencerle a posteriori de
que no fue engañado, mediante otro ardid, para poder seguir
engañándole. Un mentiroso siempre necesitará otra mentira para cubrir
la primera.
Este tipo de estrategias es muy común en la vida cotidiana y se conoce como "manipulación". Para algunos, quizás exagerando, la política (la mala política) es el arte de la manipulación continua. Y que la estrategia funcione tiene tanto que ver con la "mentira" del tramposo como la "doble ingenuidad" del honesto. Fiarse de un mentiroso no es honestidad, sino estupidez. (De ahí que la estrategia conocida como "vengativa no rencorosa", o Toma y daca (tit for tat) —ver más adelante— sea la más eficaz). Pero sabemos que el único resultado correcto es bueno para todos los jugadores, y éste sólo sucede cuando todos dicen la verdad. Si alguien miente, engaña o manipula, la solución siempre será incorrecta. O, dicho de otro modo, si la solución es incorrecta, es que alguien nos engañó o nos mintió.
[editar] Un juego similar pero distinto
El científico cognitivo Douglas Hofstadter (ver las referencias
más abajo) sugirió una vez que la gente encuentra muchas veces
problemas como el dilema del prisionero más fáciles de entender cuando
están presentados como un simple juego o intercambio. Uno de los
ejemplos que usó fue el de dos personas que se encuentran e
intercambian bolsas cerradas, con el entendimiento de que una de ellas
contiene dinero y la otra contiene un objeto que está siendo comprado.
Cada jugador puede escoger seguir el acuerdo poniendo en su bolsa lo
que acordó, o puede engañar ofreciendo una bolsa vacía. En este juego
de intercambio el engaño no es la mejor opción, pues si los dos
anteponen su egoísmo al bien común nunca serán capaces de realizar un
intercambio, ya que las dos personas siempre darán la bolsa vacía.
[editar] Matriz de pagos del dilema del prisionero
En el mismo artículo, Hofstadter también observó que la matriz de
pagos del dilema del prisionero puede, de hecho, escribirse de
múltiples formas, siempre que se adhiera al siguiente principio:
- T > R > C > P
donde T es la tentación para traicionar (esto es, lo que obtienes cuando desertas y el otro jugador coopera); R es la recompensa por la cooperación mutua; C es el castigo por la deserción mutua; y P es la paga del primo (esto es, lo que obtienes cuando cooperas y el otro jugador deserta).
En el caso del dilema del prisionero, la fórmula se cumple: 0 >
-0,5 > -6 > -10 (en negativo pues los números corresponden a años
de cárcel).
Suele también cumplirse que (T + C)/2 < R, y esto se requiere en el caso iterado.
Las fórmulas anteriores aseguran que, independientemente de los
números exactos en cada parte de la matriz de pagos, es siempre "mejor"
para cada jugador desertar, haga lo que haga el otro.
Siguiendo este principio, y simplificando el dilema del prisionero
al escenario del cambio de bolsas anterior (o a un juego de dos
jugadores tipo Axelrod — ver más abajo), obtendremos la siguiente
matriz de pagos canónica para el dilema del prisionero, esto es, la que
se suele mostrar en la literatura sobre este tema:
Cooperar | Desertar | |
---|---|---|
Cooperar | 3, 3 | -5, 5 |
Desertar | 5, -5 | -1, -1 |
En terminología "ganancia-ganancia" la tabla sería similar a esta:
Cooperar | Desertar | |
---|---|---|
Cooperar | ganancia - ganancia | pérdida sustancial - ganancia sustancial |
Desertar | ganancia sustancial - pérdida sustancial | pérdida - pérdida |
[editar] Criterio egoísta versus criterio del bien común en la matriz de resultados del dilema del prisionero
En el tratamiento del Dilema del Prisionero por lo general sólo se
considera una matriz con los resultados individuales o egoístas pero no
con los resultados conjuntos o de bien común, esto es, la suma de los
resultados individuales.
Podemos crear una matriz de resultados extendida:
Prisionero A | Prisionero B | Prisionero A | Prisionero B | Ambos |
---|---|---|---|---|
No Confesar | No Confesar | 1 año de cárcel | 1 año de cárcel | 2 años de cárcel |
No Confesar | Confesar | 5 años de cárcel | 0 años de cárcel | 5 años de cárcel |
Confesar | No Confesar | 0 años de cárcel | 5 años de cárcel | 5 años de cárcel |
Confesar | Confesar | 3 años de cárcel | 3 años de cárcel | 6 años de cárcel |
A partir de esta matriz de resultados podemos utilizar un criterio
del resultado conjunto o del bien común que produce resultados
diferentes a los obtenidos por el criterio de los resultados
individuales o egoístas: La decisión que beneficia en forma conjunta a
ambos participantes es No Confesar que resulta en un total de dos años
de cárcel contra cinco o seis años de cárcel con las otras decisiones.
Dos importantes corolarios de este criterio son los siguientes:
• La mejor decisión basada en el criterio individual o egoísta es
opuesta a la decisión basada en el criterio conjunto o del bien común.
• La decisión conjunta o de bien común implica un costo individual real o de oportunidad.
Recordemos que el concepto de Costo de Oportunidad se refiere al
beneficio que se deja de percibir que es diferente al desembolso de
algo que se poseía.
En este caso, el costo individual de la decisión altruista o de bien
común es de un año de cárcel en lugar de salir libre de manera
inmediata.
Nótese que no se habla de la culpabilidad o inocencia reales de los
presuntos criminales sino de la decisión de confesar o no hacerlo.
El efecto del cambio de criterio, del resultado individual o egoísta
al resultado conjunto o del bien común, produce un cambio de 180º en el
análisis del Dilema del Prisionero.
El más importante corolario de este dilema es que la única forma de
ganar es con un cambio de valores: del egoísmo individual al altruísmo
del bien común. Este puede ser el juego de supervivencia del planeta: o
la humanidad termina en la extinción o sobrevive gracias al respeto al
otro.
El instinto filial (amor padres-hijos) adquirido en el proceso
evolutivo ha permitido la supervivencia de la especie humana, que de
otra forma ya se hubiera extinguido debido a la incapacidad de los
infantes humanos para sobrevivir sin la protección de sus padres o
substitutos; tal incapacidad es mayor en los humanos que en ninguna
otra especie animal. El problema es que no existe el tiempo para
adquirir por evolución biológica un instinto social o de amor al otro.
Parece que la única salida es adelantarse al proceso evolutivo con la
toma de conciencia y el cambio propositivo de valores de los seres
humanos.
La paradoja de todo lo anterior es que para lograr el beneficio
individual es menester respetar el bien común. El egoísmo finalmente
desemboca en la auto-destrucción de la humanidad. Los mensajes éticos
producto de la sabiduría humana, desde los albores del hombre, son
vigentes.
[editar] Ejemplos en la vida real
Estos ejemplos en concreto en los que intervienen prisioneros,
intercambio de bolsas y cosas parecidas pueden parecer rebuscados, pero
existen, de hecho, muchos ejemplos de interacciones humanas y de
interacciones naturales en las que se obtiene la misma matriz de pagos.
El dilema del prisionero es por ello de interés para ciencias sociales
como economía, ciencia política y sociología, además de ciencias
biológicas como etología y biología evolutiva.
En ciencia política, dentro del campo de las relaciones internacionales, el escenario del dilema del prisionero se usa a menudo para ilustrar el problema de dos estados involucrados en una carrera armamentística.
Ambos razonarán que tienen dos opciones: o incrementar el gasto
militar, o llegar a un acuerdo para reducir su armamento. Ninguno de
los dos estados puede estar seguro de que el otro acatará el acuerdo;
de este modo, ambos se inclinarán hacia la expansión militar. La ironía está en que ambos estados parecen actuar racionalmente, pero el resultado es completamente irracional.
Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en ciclismo, por ejemplo el Tour de Francia. Considérense dos ciclistas a mitad de carrera, con el pelotón a gran distancia. Los dos ciclistas trabajan a menudo conjuntamente (cooperación mutua)
compartiendo la pesada carga de la posición delantera, donde no se
pueden refugiar del viento. Si ninguno de los ciclistas hace un
esfuerzo para permanecer delante, el pelotón les alcanzará rápidamente (deserción mutua). Un ejemplo visto a menudo es que un sólo ciclista haga todo el trabajo (coopere), manteniendo a ambos lejos del pelotón. Al final, esto llevará probablemente a una victoria del segundo ciclista (desertor) que ha tenido una carrera fácil en la estela del primer corredor.
Un ejemplo adicional se puede observar en las intersecciones de dos
vías por donde circulan autos y donde ninguna tiene una preferencia
sobre la otra: si todos los conductores colaboran y hacen turnos para
pasar, la pequeña espera se justifica por el beneficio de no generar
una congestión en el medio. Si alguien no colabora y el resto sí, se
beneficia el "no colaborador" generando un desorden en la secuencia de
turnos que perjudica a los que estaban colaborando. Por último, cuando
nadie quiere colaborar y tratan de pasar primero, se genera una gran
congestión donde todos pierden mucho tiempo.
Por último, la conclusión teórica del dilema del prisionero es una
razón por la cual, en muchos países, se prohíben los acuerdos
judiciales. A menudo, se aplica precisamente el escenario del dilema
del prisionero: está en el interés de ambos sospechosos el confesar y
testificar contra el otro prisionero/sospechoso, incluso si ambos son
inocentes del supuesto crimen. Se puede decir que, el peor caso se da
cuando sólo uno de ellos es culpable: no es probable que el inocente
confiese, mientras que el culpable tenderá a confesar y testificar
contra el inocente.
[editar] El dilema del prisionero iterado
Robert Axelrod, en su libro La evolución de la cooperación: el dilema del prisionero y la teoría de juegos
(1984), estudió una extensión al escenario clásico del dilema del
prisionero que denominó dilema del prisionero iterado (DPI). Aquí, los
participantes deben escoger una y otra vez su estrategia mutua, y
tienen memoria de sus encuentros previos. Axelrod invitó a colegas
académicos de todo el mundo a idear estrategias automatizadas para
competir en un torneo de DPI. Los programas que participaron variaban
ampliamente en la complejidad del algoritmo: hostilidad inicial,
capacidad de perdón y similares.
Axelrod descubrió que cuando se repiten estos encuentros durante un
largo periodo de tiempo con muchos jugadores, cada uno con distintas
estrategias, las estrategias "egoístas" tendían a ser peores a largo
plazo, mientras que las estrategias "altruistas" eran mejores,
juzgándolas únicamente con respecto al interés propio. Usó esto para
mostrar un posible mecanismo que explicase lo que antes había sido un
difícil punto en la teoría de la evolución: ¿cómo puede evolucionar un
comportamiento altruista desde mecanismos puramente egoístas en la
selección natural?
Se descubrió que la mejor estrategia determinista era el Toma y daca (tit for tat, "Donde las dan, las toman"), que fue desarrollada y presentada en el torneo por Anatol Rapoport. Era el más simple de todos los programas presentados, conteniendo únicamente cuatro líneas de BASIC,
y fue el que ganó el concurso. La estrategia consiste simplemente en
cooperar en la primera iteración del juego, y después de eso elegir lo
que el oponente eligió la ronda anterior. Una estrategia ligeramente
mejor es "tit for tat con capacidad de perdón". Cuando el
jugador B deserta, en la siguiente ronda el jugador A coopera a veces
de todos modos con una pequeña probabilidad (del 1% al 5%). Esto
permite la recuperación ocasional de quedarse encerrado en un círculo
de deserciones. La probabilidad exacta depende de la alineación de los
oponentes. "Toma y daca con capacidad de perdón" es la mejor
estrategia cuando se introducen problemas de comunicación en el juego.
Esto significa que a veces la jugada de un jugador se transmite
incorrectamente a su oponente: A coopera pero B cree que ha desertado.
Toma y daca funcionaba, mantenía Axelrod, por dos motivos. El
primero es que es "amable", esto es, comienza cooperando y sólo deserta
como respuesta a la deserción de otro jugador, así que nunca es el
responsable de iniciar un ciclo de deserciones mutuas. El segundo es
que se le puede provocar, al responder siempre a lo que hace el otro
jugador. Castiga inmediatamente a otro jugador si éste deserta, pero
igualmente responde adecuadamente si cooperan de nuevo. Este
comportamiento claro y directo significa que el otro jugador entiende
fácilmente la lógica detrás de las acciones de Toma y daca, y
puede por ello encontrar una forma de trabajar con él productivamente.
No es una coincidencia que la mayoría de las estrategias que
funcionaron peor en el torneo de Axelrod fueron las que no estaban
diseñadas para responder a las elecciones de otros jugadores. Contra
ese tipo de jugador, la mejor estrategia es desertar siempre, ya que
nunca puedes asegurarte de establecer una cooperación mutua fiable.
Para el DPI, no siempre es correcto decir que una cierta estrategia
es la mejor. Por ejemplo, considérese una población donde todo el mundo
deserta siempre, excepto por un único individuo que sigue la estrategia
Toma y daca. Este individuo tiene una pequeña desventaja porque
pierde la primera ronda. En una población con un cierto porcentaje de
individuos que siempre desertan y otros que siguen la estrategia Toma y daca,
la estrategia óptima para un individuo depende del porcentaje, y de la
duración del juego. Se han realizado simulaciones de poblaciones, donde
mueren los individuos con puntuaciones bajas y se reproducen aquellos
con puntuaciones altas. La mezcla de algoritmos en la población final
depende de la mezcla en la población inicial.
Si un DPI va a ser iterado exactamente N veces, para alguna constante conocida N, hay otro dato interesante. El equilibrio de Nash
es desertar siempre. Esto se prueba fácilmente por inducción: El
jugador A puede desertar la última ronda, ya que B no tendrá
oportunidad de castigarle. Por ello, ambos desertaran la última ronda.
Entonces, A puede desertar la ronda anterior, ya que B desertará en la
última sin importar lo que suceda. Y se continúa de este modo. Para que
la cooperación siga siendo atractiva, el futuro debe ser indeterminado
para ambos jugadores. Una solución consiste en hacer aleatorio el
número total de rondas N.
Otro caso especial es "jugar eternamente" el dilema del prisionero.
El juego se repite un número infinito de rondas, y la puntuación es la
media (calculada apropiadamente).
El juego del dilema del prisionero es fundamental para entender
ciertas teorías de cooperación y confianza humana. En la suposición de
que las transacciones entre dos personas que requieran confianza pueden
ser modelizadas por el dilema del prisionero, el comportamiento
cooperativo en poblaciones puede ser modelado por una versión para
varios jugadores e iterada del juego. Por ello ha fascinado a muchos
estudiosos a lo largo de los años. Una estimación no demasiado
actualizada (Grofman and Pool, 1975) sitúa el número de artículos dedicados al mismo sobre 2.000.
[editar] Sociedades secretas en el dilema del prisionero iterado
En el vigésimo aniversario de la competición del dilema del prisionero iterado (2004), el equipo de la Universidad de Southampton ganó las primeras posiciones, venciendo entre los demás competidores a algoritmos modelo Toma y daca
y sus derivados. La competición era de la variante del dilema del
prisionero iterado con problemas de comunicación (esto es, algunas
veces no se comunicaban bien los movimientos al otro jugador).
En esa edición, se presentaron 223 competidores, de los cuales 60
fueron inscritos por Southampton. Todos eran variantes de un mismo
algoritmo, y en los primeras 5 a 10 iteraciones del dilema del
prisionero utilizaban sus respuestas como "saludo secreto" para
identificarse entre sí. Entonces, si identificaban al otro jugador como
perteneciente a la "sociedad", algunos algoritmos estaban diseñados
para sacrificarse colaborando siempre, de modo que los otros,
traicionándolos siempre, pudiesen conseguir una puntuación máxima. Si
no identificaban al otro algoritmo como perteneciente a la sociedad
tras ver sus jugadas iniciales, todas las variantes le traicionaban
siempre para bajar en lo posible su puntuación.
Esta estrategia, aunque de discutible correspondencia con el
espíritu del juego, ya que requiere una comunicación inicial entre los
participantes de la "sociedad" para decidir el formato del "saludo", se
ajusta a las reglas de la competición. Siguiéndola, Southampton
consiguió que tres de sus participantes ocupasen las tres primeras
posiciones, a costa de que muchos de sus otros algoritmos estuviesen
entre los de peor puntuación.
[editar] Variantes
Existen algunas variantes del juego, con diferencias sutiles pero
importantes en las matrices de pago, que se muestran a continuación:
[editar] Gallina
Otro importante juego de suma no nula se llama "gallina". En este
caso, si tu oponente deserta, te beneficias más si cooperas, y éste es
tu mejor resultado. La deserción mutua es el peor resultado posible (y
por ello un equilibrio inestable), mientras que en el dilema del
prisionero el peor resultado posible es la cooperación mientras el otro
jugador deserta (así la deserción mutua es un equilibrio estable). En
ambos juegos, la "cooperación mutua" es un equilibrio inestable.
Una matriz de pagos típica sería:
- Si ambos jugadores cooperan, cada uno obtiene +5.
- Si uno coopera y el otro deserta, el primero obtiene +1 y el otro +10.
- Si ambos desertan, cada uno obtiene -20.
Se llama "gallina" por el juego de carreras de coches. Dos jugadores
corren el uno hacia el otro hacia una aparente colisión frontal: el
primero en desviarse de la trayectoria es el gallina. Ambos jugadores
evitan el choque (cooperan) o continúan con la trayectoria (desertan).
Otro ejemplo se encuentra cuando dos granjeros usan el mismo sistema de
irrigación en sus campos. El sistema puede ser mantenido adecuadamente
por una persona, pero ambos granjeros se benefician de ello. Si un
granjero no contribuye a su mantenimiento, sigue estando dentro del
interés del otro granjero hacerlo, porque se beneficiará haga lo que
haga el otro. Así, si un granjero puede establecerse como el desertor
dominante —esto es, si su hábito se vuelve tan enraizado que el otro
hace todo el trabajo de mantenimiento— seguramente continuará con ese
comportamiento.
[editar] Juego de confianza
Un juego de confianza comparte algunas similitudes con el dilema del
prisionero. Sin embargo el juego de confianza implica un juego
secuencial en que un jugador decide primero su nivel de confianza en el
segundo jugador. A mayor confianza mayor es el pago que se genera para
el segundo jugador, quien debe después decidir si si corresponde la
confianza con una decisión que es mutuamente benéfica para los dos. Un
ejemplo clásico es en el que 2 jugadores inician el juego con una
dotación de $10 cada uno. El primer jugador debe decidir cuánto de sus
$10 enviar al jugador 2. La cantidad enviada se triplica en el camino
hacia el jugador 2. Una vez el jugador 2 recibe esa cantidad
triplicada, debe decidir cuánto retornar al jugador 1. La cantidad
retornada no se triplica. Claramente este juego en una sola ronda tiene
un equilibrio de Nash de ($10,$10) en el que el jugador 2 debería
quedarse con toda la cantidad recibida, y por tanto el jugador 1 no
tiene incentivos a enviar dinero al jugador 2. El óptimo social de este
juego se logra cuando el jugador envía toda su dotación al jugador 2
generando una suma total de pagos de 3x$10 + $10 = $40. En términos de
los pagos el juego de confianza tiene una estructura similar al dilema
del prisionero, ya que la recompensa por la cooperación mutua es mayor
que la otorgada por la deserción mutua. El juego de confianza repetido
es potencialmente muy estable, ya que da la máxima recompensa a
jugadores que establecen un hábito de confianza y cooperación mutua. A
pesar de ello, existe el problema de que los jugadores no sean
conscientes de que está en su interés cooperar, o que no anticipen la
reciprocidad negativa del otro jugador erosionando la reputación,
cooperación y confianza en el proceso.
[editar] Amigo o enemigo
"Amigo o enemigo" (Friend or Foe) es un juego que se está emitiendo actualmente en el canal de cable y satélite estadounidense Game Show Network.
Es un ejemplo del juego del dilema del prisionero probado en personas
reales, pero en un entorno artificial. En el concurso, compiten tres
pares de personas. Cuando cada pareja es eliminada, juegan a un juego
del dilema del prisionero para determinar cómo se reparten sus
ganancias. Si ambos cooperan ("amigo"), comparten sus beneficios al
50%. Si uno coopera y el otro deserta ("enemigo"), el desertor se lleva
todas las ganancias y el cooperador ninguna. Si ambos desertan, ninguno
se lleva nada. Advierta que la matriz de pagos es ligeramente diferente
de la estándar dada anteriormente, ya que los pagos de "ambos desertan"
y el de "yo coopero y el otro deserta" son idénticos. Esto hace que
"ambos desertan" sea un equilibrio neutral, comparado con el dilema del
prisionero estándar. Si sabes que tu oponente va a votar "enemigo",
entonces tu elección no afecta a tus ganancias. En cierto modo, "amigo
o enemigo" se encuentra entre el dilema del prisionero y gallina.
La matriz de pagos es:
- Si ambos jugadores cooperan, cada uno obtiene +1.
- Si ambos desertan, cada uno obtiene 0.
- Si tú cooperas y el otro deserta, tú te llevas +0 y él +2.
"Amigo o enemigo" es útil para alguien que quiera hacer un análisis
del dilema del prisionero aplicado a la vida real. Fíjese en que sólo
se puede jugar una vez, así que todos los conceptos que implican juegos
repetidos no se presentan, y no se puede desarrollar la estrategia de
la revancha.
En "amigo o enemigo", cada jugador puede hacer un comentario para
convencer al otro de su amistad antes de hacer la decisión en secreto
de cooperar o desertar. Un posible modo de "ganar al sistema" sería
decir al rival: "Voy a escoger 'enemigo'. Si confías en que te dé la
mitad de los beneficios después, escoge 'amigo'. De otro modo, nos
iremos ambos sin nada." Una versión más egoísta de esto sería: "Voy a
escoger 'enemigo'. Voy a darte X% y me quedaré con (100-X)% del premio
total. Así que tómalo o déjalo, ambos nos llevamos algo o ninguno nos
llevamos nada." Ahora el truco se encuentra en minimizar X de modo que
el otro concursante siga escogiendo 'amigo'. Básicamente, debes conocer
el umbral en el que los beneficios que obtiene viéndote no llevarte
nada superan a los que obtiene simplemente llevándose el dinero que has
ofrecido.
Este acercamiento no ha sido intentado en el juego: es posible que los jueces no lo permitiesen.
[editar] La "tragedia de los comunes"
La llamada "tragedia de los comunes" (de los pastos comunales) es un
caso de dilema de prisionero que involucra a muchos agentes y que
parece referirse a situaciones reales.
En la formulación que popularizó Garrett Harding, cada vecino de una
comunidad campesina prefiere alimentar a su ganado en pastos comunales
que en otros propios de peor calidad; si el número de vecinos que
satisface esta preferencia supera cierto límite, los pastos comunes
quedan esquilmados, y es a esto precisamente a lo que conduce la
solución del juego. Para que algún vecino se beneficie de los pastos,
otros deben pagar el coste de renunciar, o cada uno debe renunciar en
parte; pero el equilibrio está en una situación donde cada quién
utiliza los pastos sin preocuparse de los demás.
Trasladando la situación al esquema de Hofstadter, cada vecino tiene
aquí la tentación T de beneficiarse de los pastos sin pagar el coste;
la recompensa R por la cooperación mutua consiste en negociar cuántos
-o en cuanto- han de dejar de beneficiarse de los pastos comunes para
conservar los pastos en buenas condiciones; el castigo C para todos
porque cada uno ceda a la tentación es la ruina de los pastos; la paga
del primo P es la de quien al no aprovecharse de los prados comunes, ha
permitido que otros lo hagan. Estas posibilidades se combinan como en
el dilema del prisionero bipersonal, haciendo que ante el riesgo de
recibir la paga del primo todos cedan a la tentación de no cooperar y
provoquen la situación de castigo.
La misma estructura se puede aplicar a cualquier dinámica de
agotamiento de recursos por sobreexplotación, y parece estar en el
origen de la contaminación ambiental –donde una atmósfera no
contaminada podría desempeñar el papel de los pastos comunes, y el
automóvil privado el papel del ganado-. Se ha interpretado que evitar
soluciones subóptimas como éstas pasa por la privatización de los
bienes de acceso público, limitando en función de la renta el número de
personas que pueden caer en la tentación.
Para el filósofo inglés Derek Parfit
los juegos que tienen más interés para estudiar la lógica del dilema
del prisionero son los que dependen de la concurrencia de muchos
agentes -como "la tragedia de los comunes"-, y no los juegos
bipersonales o los juegos iterados: por un lado, la situación que los
provoca no depende de pagos diseñados externamente -por un
experimentador o una institución-, sino de la simple concurrencia de
múltiples agentes; por otro, mientras más sean los participantes, más
irracional es abandonar unilateralmente la solución subóptima que lleva
a C –más improbables son los beneficios de no ceder a la tentación T-,
y menos peso tienen las soluciones que se postulan en contextos
artificiales de iteración. En suma, el gran número de participantes es
para Parfit tanto causa como garantía de que la no cooperación sea una
solución estable, y la hace permanente e inevitable (para agentes
racionales que busquen satisfacer su propio interés).nada mas
Paula Casal afirma que la capacidad secular de las comunidades indígenas para mantener en buen estado los pastos comunes desmiente la inevitabilidad de C; "la educación, las costumbres, los consejos de ancianos u otras instituciones sociales" de esas comunidades serían las barreras que impiden que la tragedia se dé en ellas. Parece entonces que el dilema se supera gracias a la paradójica receta que admite Parfit: el propio interés prescribe que, para llegar a soluciones óptimas de Pareto estables, los individuos deben ser educados en teorías morales contrarias a la satisfacción del propio interés.
No hay comentarios:
Publicar un comentario