免看一级a一片,久久久精品成人区二区三区免费,青青草av,久久久久久成免费视频

JN江南·(中國)體育官方網(wǎng)站-JN SPORTS

JN江南·(中國)體育官方網(wǎng)站-JN SPORTS_沒想到!AlphaZero式樹搜索也能用來增強(qiáng)大語言模型推理與訓(xùn)練

  AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,JN江南覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:;

  萬梓煜是上海交通大學(xué)的三年級(jí)在讀博士生,導(dǎo)師為溫穎教授和張偉楠教授,主要研究興趣為強(qiáng)化學(xué)習(xí)與大語言模型、決策大模型。馮熙棟是倫敦大學(xué)學(xué)院四年級(jí)博士生,導(dǎo)師為汪軍老師。同時(shí)目前也是Google DeepMind的student researcher。主要研究方向是強(qiáng)化學(xué)習(xí)與大語言模型,多智能體以及元強(qiáng)化學(xué)習(xí)。

  2016年 DeepMind 的 AlphaZero 展示了強(qiáng)大的學(xué)習(xí)和適應(yīng)能力,登上《自然》雜志封面,并在之后通過自我對(duì)弈不斷提升自身水平,最終戰(zhàn)勝了人類冠軍,而這也為之后學(xué)者在大語言模型與樹搜索的結(jié)構(gòu)化結(jié)合奠定了基礎(chǔ)。

  大語言模型與思維鏈(Chain-of-Thought, CoT)的結(jié)合增強(qiáng)了其復(fù)雜推理能力,使其在數(shù)學(xué)和邏輯推理等任務(wù)上表現(xiàn)更佳。江南JN體育然而,語言模型仍存在誤差:一方面,受數(shù)據(jù)數(shù)量和質(zhì)量的影響,大語言模型在復(fù)雜任務(wù)上仍與專家系統(tǒng)和求解器有差距;另一方面,僅依靠大語言模型難以解決長程規(guī)劃(long-horizon planning)任務(wù)。

  為解決這些問題,研究者提出了將結(jié)構(gòu)化的樹/圖搜索與大語言模型結(jié)合的方式。思維樹(Tree of Thought, ToT)模仿人類認(rèn)知中的慢系統(tǒng),利用深度/廣度優(yōu)先搜索顯著提升大語言模型的規(guī)劃能力。Reasoning via Planning (RAP) 則將大語言模型的思維鏈過程視作規(guī)劃(planning),使用其內(nèi)在知識(shí)進(jìn)行狀態(tài)評(píng)估,并結(jié)合傳統(tǒng)蒙特卡洛樹搜索(MCTS),從而增強(qiáng)語言模型的性能。這些方法利用大語言模型的多任務(wù)能力,通過提示工程(prompt engineering)對(duì)中間結(jié)果進(jìn)行價(jià)值判斷。

  JN江南官方

  然而,這種方法并不普遍適用。評(píng)估多步推理問題的中間狀態(tài)本身也是一個(gè)推理子問題,依賴CoT生成評(píng)估,無法保證評(píng)估的可靠性。此外,語言模型的自我評(píng)估能力和逆轉(zhuǎn)詛咒問題,以及子問題難度降低不顯著等因素,限制了這類方法的應(yīng)用效果,尤其是對(duì)于較小規(guī)模、易部署的模型。

  一個(gè)潛在的解決方案是參考AlphaZero。2016年,DeepMind通過AlphaZero在復(fù)雜多步推理問題如圍棋上取得突破性進(jìn)展。AlphaZero結(jié)合了傳統(tǒng)MCTS和深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),使用價(jià)值函數(shù)學(xué)習(xí)簡化了MCTS中的Simulation/Rollout過程,并通過蒸餾樹搜索增強(qiáng)策略的迭代優(yōu)化,為大語言模型在樹搜索評(píng)估和長程規(guī)劃效率問題上提供了方向。

  基于此,來自倫敦大學(xué)學(xué)院,上海交通大學(xué),卡耐基梅隆大學(xué)的合作團(tuán)隊(duì)將 AlphaZero 方法精髓與大語言模型的文本生成結(jié)合,提出了大語言模型樹搜索訓(xùn)練增強(qiáng)框架 TSLLM。通過將這一任務(wù)建模為多步?jīng)Q策問題,引入強(qiáng)化學(xué)習(xí)中價(jià)值函數(shù)學(xué)習(xí)的概念,江南JN體育以訓(xùn)練的方式微調(diào)一個(gè)價(jià)值函數(shù)以提供更為魯棒可靠的搜索中間價(jià)值評(píng)估。與此同時(shí)在 TSLLM 中也實(shí)現(xiàn)了不同樹搜索算法的對(duì)比,尤其是探究了價(jià)值函數(shù)結(jié)合的簡化 MCTS 在不同類型任務(wù)上的優(yōu)缺點(diǎn)。最后,團(tuán)隊(duì)探究了由樹搜索引導(dǎo)的迭代優(yōu)化方式對(duì)大語言模型進(jìn)一步優(yōu)化的可能性。目前,該論文已被ICML 2024接收。

  TSLLM 是一個(gè)普遍適用和可擴(kuò)展的框架,通過學(xué)習(xí)價(jià)值函數(shù)可應(yīng)用于幾乎任何任務(wù),以及任何大小的語言模型。

  TSLLM 在不同問題上驗(yàn)證了樹搜索能增強(qiáng)大語言模型推理階段表現(xiàn)的同時(shí),也進(jìn)一步驗(yàn)證了其迭代增強(qiáng)語言模型作為一個(gè)語言模型訓(xùn)練新范式的潛力。

  TSLLM進(jìn)行了全面且公平的對(duì)比。例如,為了實(shí)現(xiàn)與非搜索算法(如 CoT/CoT-SC)的公平對(duì)比,TSLLM 通過統(tǒng)計(jì)總體計(jì)算量的方式衡量不同算法的效果與效率。

  研究團(tuán)隊(duì)將大語言模型的自回歸生成過程建模為一個(gè)多步?jīng)Q策問題,定義詞元/句級(jí)的語言生成過程的概率建模。對(duì)于給定的自然語言任務(wù),他們通過學(xué)習(xí)的價(jià)值函數(shù)估計(jì)與最終獎(jiǎng)勵(lì)估計(jì),建模自然語言任務(wù)生成過程中的期望回報(bào)與稀疏獎(jiǎng)勵(lì)。并通過樹搜索的方式在推理與訓(xùn)練階段增強(qiáng)大語言模型的能力。

  基于學(xué)習(xí)得到的價(jià)值函數(shù),TSLLM 中實(shí)現(xiàn)了不同的樹搜索算法,從簡單的價(jià)值函數(shù)引導(dǎo)的廣度/深度搜索(DFS/BFS-V)到傳統(tǒng) MCTS,該團(tuán)隊(duì)基于 AlphaZero 的中間價(jià)值回傳思想實(shí)現(xiàn)了 MCTS-α,以及提出離線搜索變種MCTS-Rollout。下圖比較了傳統(tǒng) MCTS 與 AlphaZero 式的 MCTS 的主要區(qū)別,如圖所示,傳統(tǒng) MCTS 需要通過模擬(Simulation)達(dá)到停止節(jié)點(diǎn),才會(huì)開始價(jià)值回傳。另外,在 TSLLM 中,他們還討論并實(shí)現(xiàn)了多條搜索路徑的聚合形式,以及提出了考慮計(jì)算量的公平比較方式。

  圖二:傳統(tǒng)蒙特卡洛樹搜索(左)與AlphaZero 式的蒙特卡洛樹搜索(右)對(duì)比。江南JN體育

  最后,在 TSLLM 中,研究團(tuán)隊(duì)指出樹搜索還能夠進(jìn)一步強(qiáng)化大語言模型本身。他們將結(jié)構(gòu)化搜索作為一個(gè)策略增強(qiáng)算子( Policy Improvement Operator),利用這個(gè)算子本身,可以迭代式的優(yōu)化語言模型策略與價(jià)值/獎(jiǎng)勵(lì)估計(jì)函數(shù)。在 TSLLM 中,研究團(tuán)隊(duì)類比 AlphaZero/Expert Iteration 中的迭代式優(yōu)化方法:一方面通過 supervised finetuning 蒸餾這一更好表現(xiàn)的策略分布,而另一方面持續(xù)微調(diào)價(jià)值函數(shù)估計(jì)。通過這樣的方式不斷持續(xù)增強(qiáng)大語言模型策略本身的任務(wù)解決能力與價(jià)值函數(shù)指導(dǎo)的搜索增強(qiáng)策略的能力。

  在實(shí)驗(yàn)過程中,團(tuán)隊(duì)非常重視樹搜索算法和基線算法的合理對(duì)比。針對(duì)于一些算法評(píng)估的不合理現(xiàn)象,團(tuán)隊(duì)強(qiáng)調(diào)了:

  算法的合理對(duì)比。樹搜索算法天生會(huì)帶來更高的計(jì)算復(fù)雜度,合理的算法對(duì)比應(yīng)在相似的計(jì)算量上進(jìn)行。

  JN江南官方

  選擇合理基線和設(shè)定。例如,團(tuán)隊(duì)發(fā)現(xiàn)一個(gè)經(jīng)常被忽略的基線算法:Majority-Vote + Outcome Reward Model。實(shí)驗(yàn)中團(tuán)隊(duì)發(fā)現(xiàn)其可以作為簡單卻非常強(qiáng)大的基線K上甚至可以超過樹搜索算法。同時(shí)團(tuán)隊(duì)嚴(yán)格避免了不合理的實(shí)驗(yàn)設(shè)定:如利用測(cè)試集的真值進(jìn)行樹搜索回溯。

  在實(shí)驗(yàn)中,團(tuán)隊(duì)在數(shù)學(xué)推理/規(guī)劃,邏輯推理任務(wù),價(jià)值對(duì)齊的文本生成以及文本化的決策推理任務(wù)上進(jìn)行了豐富的實(shí)驗(yàn)與對(duì)比,在搜索深度上最大達(dá)到了 64,顯著深于之前的算法。

  JN江南官方

  團(tuán)隊(duì)首先就基于學(xué)習(xí)的價(jià)值函數(shù)與大語言模型自我評(píng)估的方式進(jìn)行對(duì)比。下表實(shí)驗(yàn)結(jié)果表明基于學(xué)習(xí)的價(jià)值函數(shù)無論是在 GSM8k還是 Game24 問題上都優(yōu)于 ChatGPT,即使在評(píng)估 ChatGPT 本身作為策略的中間狀態(tài)時(shí),表現(xiàn)依舊優(yōu)于 ChatGPT 本身,充分說明了基于學(xué)習(xí)的價(jià)值函數(shù)的可靠性與魯棒性。

  團(tuán)隊(duì)比較TSLLM 中不同樹搜索算法在類似計(jì)算量下的結(jié)果,發(fā)現(xiàn) MCTS-α與 MCTS-Rollout的搜索算法主要在長程推理(搜索樹深度較大,如 Alignment,JN江南Endgame)問題上,顯著優(yōu)于其他搜索算法。但對(duì)于輕量級(jí)或搜索深度較低的問題,BFS/DFS也具有較強(qiáng)的性能。

  同時(shí),團(tuán)隊(duì)也嘗試了對(duì)樹搜索的采樣次數(shù)進(jìn)行scaling。結(jié)果發(fā)現(xiàn),絕大部分樹搜算算法都可以隨著路徑搜索次數(shù)的增加而獲得性能提升。但同時(shí)團(tuán)隊(duì)也發(fā)現(xiàn),一些簡單的baseline (如COT-SC+ORM)具有更好的scaling性質(zhì)。例如在GSM8K中, COT-SC+ORM的baseline可以取得比樹搜索更優(yōu)越的性能與擴(kuò)展屬性?;谶@個(gè)結(jié)果,團(tuán)隊(duì)認(rèn)為如何獲得更為優(yōu)越的擴(kuò)展性能將成為樹搜索算法未來的重要研究方向。

  總結(jié)來說,在這一工作中,研究團(tuán)隊(duì)提出了大語言模型的樹搜索推理與訓(xùn)練增強(qiáng)框架 TSLLM,在經(jīng)驗(yàn)結(jié)果上強(qiáng)調(diào)了可靠中間價(jià)值評(píng)估的重要性與樹搜索算法在不同問題上的效果與效率,驗(yàn)證了 AlphaZero 式的蒙特卡洛樹搜索的高效性與進(jìn)一步迭代優(yōu)化大語言模型本身的可能。