《扑克超人人工智能》是一篇永恒的研究论文
- 西晋无畏的鱼丸
- 2025-01-06 08:22:09
《扑克超人人工智能》是一篇永恒的研究论文。
扑克与围棋/国际象棋不同,是一种不完美信息的游戏。由现任 OpenAI 工程师开发的 Pluribus 在 10,000 局扑克游戏中果断击败了 5 名职业选手,每局赢得 4800 万大盲注。
还做了一个关于石头剪刀布的小演示:
与人类一样,Pluribus 也证实,跛入(跟注“大盲注”)而不是弃牌或加注并不是最理想的做法。
然而,它不同意“驴式下注”(当一个人在上一轮下注结束时跟注,然后开始下一轮下注)是错误的观点。
Pluribus 使用蒙特卡洛反事实遗憾最小化 (MCCFR),它对动作进行采样并调整其概率,这与围棋/国际象棋的 MCTS 不同。
它使用 3 个 Intel Haswell CPU 上的< 128GB 内存,每手耗时 20 秒,是人类时间的一半。
虽然细节都在论文里,但理解该策略最简单的方法是石头剪刀布。
如果您总是出石头,那么对方就会开始出布并击败您。
这是 Claude 工件,演示了使用 MCCFR 的简单 RPS: AI创造营
扑克与围棋/国际象棋不同,是一种不完美信息的游戏。由现任 OpenAI 工程师开发的 Pluribus 在 10,000 局扑克游戏中果断击败了 5 名职业选手,每局赢得 4800 万大盲注。
还做了一个关于石头剪刀布的小演示:
与人类一样,Pluribus 也证实,跛入(跟注“大盲注”)而不是弃牌或加注并不是最理想的做法。
然而,它不同意“驴式下注”(当一个人在上一轮下注结束时跟注,然后开始下一轮下注)是错误的观点。
Pluribus 使用蒙特卡洛反事实遗憾最小化 (MCCFR),它对动作进行采样并调整其概率,这与围棋/国际象棋的 MCTS 不同。
它使用 3 个 Intel Haswell CPU 上的< 128GB 内存,每手耗时 20 秒,是人类时间的一半。
虽然细节都在论文里,但理解该策略最简单的方法是石头剪刀布。
如果您总是出石头,那么对方就会开始出布并击败您。
这是 Claude 工件,演示了使用 MCCFR 的简单 RPS: AI创造营