神秘顾客 研究专家!

赛优市场店员积累了丰富的神秘顾客经验,严谨,务实,公平,客观.真实的数据支持!

24小时咨询热线:13760686746

栏目分类
神秘顾客教程

当前位置:青岛第三方调研 > 神秘顾客教程 >

热点资讯

神秘顾客教程在使用GPT、Llama等多种大模子的情况下

发布日期:2024-03-13 08:12    点击次数:72

基于大模子的Agent神秘顾客教程,也曾成为了大型的博弈游戏的高等玩家,况兼玩的如故德州扑克、21点这种非好意思满信息博弈。

来自浙江大学、中科院软件所等机构的说合东说念主员建议了新的Agent进化计谋,从而打造了一款会玩德州扑克的“桀黠”智能体Agent-Pro。

通过不竭优化自我构建的宇宙模子和步履计谋,Agent-Pro掌合手了虚张阵容、主动撤消等东说念主类高阶游戏计谋。

Agent-Pro以大模子为基座,通过自我优化的Prompt来建模游戏宇宙模子和步履计谋。

比拟传统的Agent框架,Agent-Pro莽撞变通地搪塞复杂的动态的环境,而不是仅专注于特定任务。

况兼,Agent-Pro还不错通过与环境互动来优化我方的步履,从而更好地已毕东说念主类设定的见解。

同期作家还指出,在竞争、公司谈判和安全等本质宇宙中碰到的情景,大多不错综合为multi-agent博弈任务,而Agent-Pro通过对这类情境的说合,为料理无边本质宇宙的问题提供了有用计谋。

那么,Agent-Pro在博弈游戏中的推崇究竟奈何呢?

进化出游戏宇宙模子

在说合中,作家使用了“21点”和“有限注德州扑克”这两款游戏对Agent进行了评估。

着手简要先容下两个博弈游戏的基本限定。

21点

游戏中包含一个庄家和至少别称玩家。

玩家不错看到我方的两张手牌, 以及庄家的一张明牌,庄家还消散了一张暗牌。玩家需要决定是链接要牌(Hit)如故停牌(Stand)。

游戏的见解是在总点数不着手21点的前提下,尽量使总点数着手庄家。

有限注德州扑克

游戏运转阶段为Preflop阶段,每位玩家将取得两张只属于我方且对其他玩家守秘的私牌(Hand)。

随后,会有五张全球牌面(Public Cards)循序发出:着手翻牌(Flop)3 张,其次转牌(Turn)1张,临了是河牌(River)1张。

玩家有四种遴选:弃牌(fold)、过牌(check)、跟注(call)或加注(raise)。

见解是愚弄我方的两张Hand和五张Public Cards自便组合,尽可能构造出最好的五张扑克牌组合。

在“21点”当中,一样是使用GPT-4作为基础模子,Agent-Pro的推崇着手了ReAct框架。

在手牌疏导的情况下,二者的推崇如下图所示。

Agent-Pro通过分析得出自我信念(Self-Belief)和对外部宇宙的信念(World-Belief),正确意识到我方的手牌已接近21点,合理的遴选了停牌。

而ReAct则未能实时停牌,导致最终爆牌,输掉了游戏。

从游戏中莽撞看出Agent-Pro更好的聚会了游戏的限定,并给出了合理的遴选。

接下来再望望在德州扑克中Agent-Pro的推崇。

一次牌局中,参赛选手诀别是熏陶后的DQN、DMC计谋,原生GPT3.5和Agent-Pro(基于GPT-4),他们的手牌和全球牌如下图所示:

S、H、C、D诀别代表黑桃、红桃、梅花、方块

在刻卑鄙戏状况(Current game state)下,Agent-Pro分析得出Self-Belief、World-Belief和最终的Action,并跟着游戏状况的变化,不竭更新Belief,凭证自己和敌手的情况,作念出活泼合理的遴选。

疏导牌局合并位置的Baseline(原始大模子)后果为-13

统计数据上看,21点游戏中,在使用GPT、Llama等多种大模子的情况下,Agent-Pro的推崇都显耀着手了原始模子和其他参与对比的Agents框架。

在更为复杂的德州扑克游戏中,Agent-Pro不仅着手了原始大模子,还打败了DMC等熏陶后的强化学习Agent。

那么,Agent-Pro是奈何学习和进化的呢?

三管王人下进步Agent推崇

神秘顾客_赛优市场调研

Agent-Pro包括“基于信念的方案”“计谋层面的反念念”和“宇宙模子和步履计谋优化”这三个组件。

基于信念的方案(Belief-aware Decision-making)

Agent-Pro凭证环境信息,关于我们着手造成Self-Belief和World-Belief,然后基于这些Belief作念出方案(Action)。

在后续环境交互中,Agent-Pro动态更新Belief,进而使作念出的Action相宜环境的变化。

举例,德州扑克游戏中:

环境信息可包括手牌(Private State)、全球牌(Public State)、行为轨迹(Trajectory)等;

Agent-Pro敌手牌(State)、出牌规划(Plan)及潜在风险(Risk)的预估等信息组成了它的Self-Belief;

而Agent-Pro对敌手(Opponent)、环境(Environment)和限定(Rule)的聚会则组成了它的World-Belief;

这些Belief在每一个方案周期中都会被更新,从而影响下个周期中Action的产生

计谋层面的反念念(Policy-Level Reflection)

与东说念主类一样,Agent-Pro 会从历史教化、历史潜入和历史后果中进行反念念和优化。它自主颐养我方的Belief,寻找有用的指示指示,并将其整合到新的计谋Policy中。

着手,Agent-Pro以笔墨的体式想象了一个对任务宇宙的建模以及对步履准则的描绘, 他们一齐被行为念Policy:

World Modeling:任务宇宙的建模,举例对游戏环境的聚会、敌手们的立场分析、环境中其他Agent的计谋揣测等;

Behavioral Guideline:步履准则的描绘,举例对游戏见解的意识、我方计谋议论、将来可能面对的风险等

其次,为了更新World Modeling和Behavioral Guideline,Agent-Pro想象了一个Policy-level Reflection进程。

与Action-level Reflection不同,在Policy-level的反念念中,Agent-Pro被辅导去暖和内在和外皮信念是否对王人最终后果,更环节的是,反念念背后的宇宙模子是否准确,步履准则是否合理,而非针对单个Action。

举例,德州扑克游戏中Policy-level的反念念是这么的:

在刻下宇宙模子和步履准则(World Modeling & Behavioral Guideline)的带领下,Agent-Pro不雅察到外部状况,然青年景Self-Belief和World-Belief,临了作念出Action。但淌若Belief不准确,则可能导致分歧逻辑的行为和最终后果的失败;

Agent-Pro凭证每一次的游戏来注释Belief的合感性,并反念念导致最终失败的原因(Correct,Consistent,Rationality…);

然后,Agent-Pro将反念念和对自己及外部宇宙的分析整理,生成新的步履准则Behavioral Guideline和宇宙建模World Modeling;

基于重生成的Policy(World Modeling & Behavioral Guideline),Agent-Pro重迭进行疏导游戏,来进行计谋考据。淌若最终分数有所进步,则将更新后的World Modeling & Behavioral Guideline和保留在指示中。

宇宙模子和步履准则的优化(World Modeling & Behavioral Guideline Evolution)

在Policy-level Reflection之上,面对动态的环境,Agent-Pro还接受了深度优先搜索(DFS)和计谋评估,来不息优化宇宙模子和步履准则,从而找到更优的计谋。

计谋评估是指Agent-Pro 在新的采样的轨迹中对新Policy进行更全面的评估,从而熟练新计谋的泛化工夫。举例,德州扑克游戏中,新采样多条游戏轨迹。

通过交换玩家位置或手牌,来排斥由于气运带来的连忙成分,从而更全面评估新计谋的工夫。

而DFS搜索则在新计谋不可在新的场景中带来预期的改良(计谋评估)时使用,按照DFS搜索计谋,从其他候选计谋中寻找更优的计谋。

— 完 —神秘顾客教程



友情链接:

Powered by 青岛第三方调研 @2013-2022 RSS地图 HTML地图

Copyright 站群系统 © 2013-2022 粤ICP备09006501号

在线客服系统