从博弈论角度分析诈唬:特殊情况中的预期回报

  • 时间:
  • 浏览:31
  • 来源:德扑游竞技平台

诈唬是扑克游戏中的重要组成部分,每一个优秀的玩家都应该牢记它。从不诈唬或者太频繁地诈唬,对一个扑克玩家来说都是巨大的错误。如何找到适当的平衡点?什么时候诈唬才是理想的选择?什么时候,以什么样的频率对某些玩家诈唬才能打出有收益的扑克呢?

这篇文章会涉及到诈唬的数学背景,并利用博弈论阐述一些可能的策略。

这篇文章的主要内容

      • 数学背景

      • 最佳策略

      • 纳什均衡点

前面两点我们在前几天的文章中已经讨论过...今天,我们要说的是第三点:

一些特殊情况中的预期回报 

下面是两张展示特殊情况中的预期回报的图表。第一张图表显示当你的听型牌失败时的预期回报,用给定的例子计算:

你的对手的预期回报是你的预期回报的负数,加上已经在底池中的$100。(他会得到你在下注轮的净损失,加上 现有的底池。当然如果你赢下底池的话,你的净损失是– $100,而他不会得到任何东西。来看看最简单的情况:当你的预期回报是0时,你的筹码量不会发生变化。因此你不会赢下底池,赢得底池的是你的对手。因为 我们已经玩到了河牌圈,所以这不是一个零和博弈。)

当你知道什么时候诈唬,什么时候价值下注,而对手却不知道时,对他来说(也可能对你),下面的这个图表 会更有用。这张表显示的是,综合你的获胜牌和失败牌之后的你的预期回报。在类似的情况中,你有20%的时候会领先,80%的时候会落后。因此你的平均预期 回报是 qEw + (1 – q)El. (这个结果的负值加上底池现有的$100是你的对手的预期回报Eop。)

 结论

当你面对一个优秀的对手时,最好的选择就是利用纳什均衡点为你提供的策略:xopt。在这种情况你的对手会用 yopt的策略打牌。如果他没有,他就犯了错误(也说明他不是一个优秀的玩家),你可以利用他的错误找到最佳的打法。如果他经常跟注,就少诈唬他,如果他 很少跟注,就多诈唬他。如果你能猜测他的跟注频率,就可以根据预期回报最大化的原则,计算自己应该诈唬的频率。

附录

计算yopt的值

如果y = yopt,你的预期回报不会改变,无论x是多少。让我们先让x = 0,这时你什么牌也赢不了,公式是:

El, x=0 = 0. 

现在让x = 1. El的公式变为

El, x=1 = (1 – yopt)P – yoptB.

因为x=0和x=1时的预期回报是一样的,所以

(1 – yopt)P – yoptB = 0,

所以

    (1 – yopt)P = yoptB,

    P – yoptP = yoptB,

    P = yopt(P + B), 

最后

yopt = P/(P + B).

从对手的角度来看

现在让我们以对手的视角看看这个问题。首先我们要列出他的预期回报Eop。因为他不知道你是领先还是落后,所以他的预期回报还受q的影响,因此公式有一点复杂:

Eop = – qyB + q(1 – y)0 + (1 – q)[xy(P + B) + x(1 – y)0 + (1 – x)P]. 

第一项表示你有能取胜的牌,你下注,他跟注,并损失了这个跟注。第二项表示你持有能获胜的一手牌,但是他弃 牌,没有赢到或损失任何东西。剩下的部分表示他领先时的情况。方括号中的第一部分表示你诈唬,他跟注,他赢得底池和你的下注的情况。中间部分表示当你诈 唬,他弃牌时的情况,没有盈利和损失,最后一部分表示当你弃牌时,他赢得底池的情况(可能是他在你之后过牌,赢得摊牌,也可能是他下注,迫使你弃牌).

省略其中为0的部分,我们得到

Eop = (1 – q)[xy(P + B) + (1 – x)P] – qyB.

如果你的对手知道你从不诈唬(x = 0),那他的最佳打法是什么?他永远不会跟注,在上面的公式中如果用0代替x,我们得到

Eop x=0 = (1 – q)P– qyB. 

为了使结果最大化,我们必须让y = 0 (永远不跟注)。

另一方面,如果你的对手知道你总是诈唬(x = 1),那他最好的回应就不那么明显了。如果x = 1,我们得到

Eop x=1 = (1 – q)y(P + B) – qyB = y[(1 – q)(P + B) – qB].

如果

(1 – q)(P + B) – qB > 0,

y = 1 (总是跟注)会最大化对手的预期回报。

如果

(1 – q)(P + B) – qB < 0,

他就应该使用 y = 0 (永远不跟注)的策略。

(1 – q)(P + B) – qB < 0

意味着

    (1 – q)(P + B) < qB,

    P + B – qP – qB < qB,

    P + B < q(P + 2B), 

最后

q > (P + B)/(P + 2B).

在我们的例子中,P = B = $100,如果q > 2/3,你的对手应该永不跟注(即使他知道你总是下注;因此在这种情况中你总是应该诈唬), 当q < 2/3时,他应该总是跟注(如果他知道你总是诈唬)。记住,这个q的值也仅取决于底池大小和下注大小。

计算xopt的值

如果x = xopt,你的对手的预期回报不会改变,无论y是多少。和之前一样,先让y = 0。Eop的公式为

Eop y=0 = (1 – q)(1 – xopt)P.

现在让y = 1。我们得到

Eop y=1 = (1 – q)[ xopt (P + B) + (1 – xopt)P] – qB.

因为y=0和y=1时的Eop是一样,我们得到

(1 – q)(1 – xopt)P = (1 – q)[ xopt (P + B) + (1 – xopt)P] – qB,

因此

qB = (1 – q) xopt (P + B)

(两边都有(1 – q)(1 – xopt)P,因此可以消掉),所以最终我们得到

xopt = qB/[(1 – q)(P + B)].

当我们讨论可能性时,我们通常用 0.2代替20%,用0.5代替50%等等。一件不可能的事件发生的可能性是0 (0%),一件确定的事发生的可能性是1 (100%)。剩下的其他事件发生的可能性在0和1之间。

猜你喜欢

牌的 RANG 范围

牌的范围是你读牌的主要工具. 读牌不是看透对手的灵魂或者靠占卜能推断出自己的牌.而是一个合乎逻辑的推论过程.你除了对手亮牌的那些牌很少会看到对手的底牌,你需要通过收集更多的信息来帮助你,把对手手持的范围尽可能的变窄。

2020-05-30

行动攻略:弃牌的观察

德州扑克中的“弃牌、下注、跟注、过牌”是德州扑克玩家和玩家之间的对话方式,通过对手行动所透露的情报,来猜测对手的目的并采取相应的行动,是德州扑克最核心技术,也是德州扑克的乐趣所在。本期开始将连载关于行动的各项基本攻略,让玩家们了解如何解读德州扑克的“行动”。

2020-05-30

失败的职业牌手生活,我究竟错在哪里?(下)

多年前,我辞去工作,立志成为一名职业牌手。 几个月之后我就失败了。

2020-05-30

你可以不当职业牌手,但一定要懂职业的套路!

Mike Caro,绰号“疯狂的扑克天才”,当今扑克策略、扑克心理学及扑克统计的最高权威。他也是世界一流牌手,Mike Caro扑克学院的创始人,其研究与成果被100多本扑克书援引。

2020-05-30

献给那些想打职业扑克的人们!

经常有人问我开启线上职业扑克的正确方法。回顾过去7年的职业经历,我相信德州扑克玩家的成功有许多方式,成为赢家并没有神奇的秘方。但是游戏教会了我一些正确的态度,这对于拿这些想在德州扑克世界上占据一席之地的人来说是必不可少的。每位玩家要记住的第一件事就是,任何伟大的成绩都是要花时间、守纪律和献身的。不过,在前几个步骤中,有些小贴士可以给你一些帮助。

2020-05-30