Agentic Workflow:AI重塑了我的工作流
共 6685字,需瀏覽 14分鐘
·
2024-05-25 22:44
"Reshape your workflow with AI." 在Agentic Workflow的這件事情上,我先完成了自己的工作流重塑。
近期在「特工宇宙」分享了一場關(guān)于Agentic Workflow主題的內(nèi)容,現(xiàn)在同步分享給大家一些關(guān)于個(gè)人在使用AI Agent Workflow上的思考、AI-Native應(yīng)用「Pailido|AI拍立得」創(chuàng)建的初衷和實(shí)現(xiàn)流程,在個(gè)人工作流重塑上分享了一些體悟。
本次分享大綱整體圍繞著AI Agent和Agentic Workflow從“認(rèn)識、定義、應(yīng)用、偏見、實(shí)踐以及延伸”進(jìn)行展開,正式拉開「仰望星空,腳踏實(shí)地」的序幕。
在今年的 4 月初,吳恩達(dá)老師在美國紅杉做了一場演講,介紹了 4 種主要的 Agentic Workflow 設(shè)計(jì)模式。
Reflection(反思):讓 Agent 審視和修正自己生成的輸出。
Tool Use(工具):LLM 生成代碼、調(diào)用 API 等工具進(jìn)行操作。
Planning(規(guī)劃):讓 Agent 分解復(fù)雜任務(wù)并按計(jì)劃執(zhí)行。
Multiagent Collaboration(多智能體協(xié)同):多個(gè) Agent 扮演不同角色合作完成任務(wù)。
Reflection
反思在根本上其實(shí)是一個(gè)博弈的過程:如果你讓大模型寫一段代碼,它會立刻給你反饋。這時(shí)你可以將它輸出的代碼片段再輸入回去,讓大模型仔細(xì)檢查代碼的準(zhǔn)確性和結(jié)構(gòu)規(guī)范性,并給出評論。然后,你可以將這些反饋結(jié)果再次輸入給大模型,它可能會輸出一個(gè)比第一版更好的代碼,如果有兩個(gè) Agent:一個(gè)負(fù)責(zé) Coding,另一個(gè)負(fù)責(zé) Code Review,效果會更佳。
Tool Use
如果大家使用 Kimi Chat 來查詢某個(gè)問題,你會發(fā)現(xiàn)它會在互聯(lián)網(wǎng)上檢索相關(guān)內(nèi)容,并基于檢索結(jié)果進(jìn)行總結(jié)分析,最后給出結(jié)論。這其實(shí)是大模型利用「網(wǎng)頁搜索」工具的一個(gè)典型例子,同時(shí)你也會看到PPT中介紹了非常多的不同領(lǐng)域類型的工具,它其實(shí)是為大模型在獲取、處理、呈現(xiàn)信息上做額外的補(bǔ)充。
Planning
Agent 通過自行規(guī)劃任務(wù)執(zhí)行的工作流路徑,面向于簡單的或者一些線性流程的運(yùn)行。比如下圖中:Agent 會先識別男孩的姿勢,并可能找到一個(gè)姿勢提取模型來識別姿勢,在接下來要找到一個(gè)姿勢圖像模型來合成一個(gè)新的女孩圖像,然后再使用圖像理解文本的模型,并在最后使用語音合成輸出,完成這個(gè)流程任務(wù)。
Multiagent Collaboration
吳恩達(dá)通過開源項(xiàng)目 ChatDev 進(jìn)行舉例,你可以讓一個(gè)大語言模型扮演不同的角色,比如讓一個(gè) Agent 扮演公司 CEO、產(chǎn)品經(jīng)理、設(shè)計(jì)師、代碼工程師或測試人員,這些 Agent 會相互協(xié)作,根據(jù)需求共同開發(fā)一個(gè)應(yīng)用或者復(fù)雜程序。
AI Agent 基本框架
OpenAI 的研究主管 Lilian Weng 曾經(jīng)寫過一篇博客叫做《 LLM Powered Autonomous Agents 》,其中就很好的介紹了 Agent 的設(shè)計(jì)框架,她提出了“Agent = LLM + 規(guī)劃 + 記憶 +工具使用”的基礎(chǔ)架構(gòu),其中大模型 LLM 扮演了 Agent 的“大腦”。
Planning(規(guī)劃)
主要包括子目標(biāo)分解、反思與改進(jìn)。將大型任務(wù)分解為較小可管理的子目標(biāo)處理復(fù)雜的任務(wù)。而反思和改進(jìn)指可以對過去的行動進(jìn)行自我批評和自我反思,從錯(cuò)誤中學(xué)習(xí)并改進(jìn)未來的步驟,從而提高最終結(jié)果的質(zhì)量。
Memory(記憶)
分為短期記憶和長期記憶。其中短期記憶是指的將所有的上下文學(xué)習(xí)看成是利用模型的短期記憶來學(xué)習(xí);而長期記憶是提供了長期存儲和召回信息的能力,它們通常通過利用外部的向量存儲和快速檢索來存儲和召回信息。
Tools(工具)
通過學(xué)會調(diào)用外部不同類型API來獲取模型(通常在預(yù)訓(xùn)練后很難修改)中缺少的額外信息,代碼執(zhí)行能力,訪問專有信息源等(例如獲取此時(shí)此刻的天氣、聯(lián)網(wǎng)網(wǎng)搜索等)
Action(動作)
根據(jù)上述大模型結(jié)合問句(Query)、上下文的規(guī)劃(Context)、各類工具,最終大模型才能決策出最終需要執(zhí)行的動作是什么。
Agentic Workflow 解決什么問題?我認(rèn)為是可以從從提升效率、提高質(zhì)量、節(jié)省時(shí)間的角度上進(jìn)行思考。好比一臺“印鈔機(jī)”,按照指定好的流程重復(fù)著機(jī)械性的活動,但是它在源源不斷的產(chǎn)生價(jià)值。
Productivity (效率) = 產(chǎn)生價(jià)值的速率
Agentic Workflow 通過將一個(gè)復(fù)雜的任務(wù)分解成較小的步驟,在整個(gè)過程中中融入了更多人類參與到流程中的規(guī)劃與定義。它減少了對 Prompt Engineering 和模型推理能力的依賴,提高了 LLM 應(yīng)用面向復(fù)雜任務(wù)的性能,更豐富、更精確。
下面是Coze(扣子)平臺上的工作流編排器的示例,這個(gè)話其實(shí)是一個(gè)抽卡游戲的流程,你可以看到在整個(gè)工作流中間會有很多節(jié)點(diǎn)前后之間有節(jié)點(diǎn)以及連線,然后每個(gè)節(jié)點(diǎn)之間它是通過不同的定義,比如說圖片處理工具,或者說是通過多模態(tài)模型進(jìn)行圖片理解工具等等其他各種各樣的工具組合而成。
單Agent模式下,在這里可以看到一些例如“技能”、“知識”、“記憶”、“對話體驗(yàn)”等等點(diǎn),其實(shí)在我們上面這個(gè)多個(gè)Agent和workflow編輯器里面里面也有這類工具。它是將一整套工作流組合起來,每個(gè)工具在每一個(gè)節(jié)點(diǎn)里面,它執(zhí)行了一個(gè)任務(wù)。大家感興趣的話可以去體驗(yàn)一下,可以在自己工作流中整個(gè)使用。
Agentic Workflow 的“套娃”設(shè)計(jì)
下面也會帶著大家重新看一下工作流其實(shí)一直都有出現(xiàn),目前的工作流編輯器是將Agent的處理流程可視化和可控化了。
LangGPT 提示詞框架工作流設(shè)計(jì)
與傳統(tǒng)的 Prompt 從輸入直接到輸出的映射方式相比,LangGPT 提示詞框架應(yīng)用了CoT(Chain of Thought)完成了從輸入到思維鏈再到輸出的映射,即<input——>reasoning chain——>output>。
最后你會發(fā)現(xiàn)濃縮成一句話可以解決模型在規(guī)劃過程中的路徑拆解,CoT的思維:“Let's think step by step.”(讓我們一步一步思考)
RPA 的工作流設(shè)計(jì)
RPA其實(shí)很早就已經(jīng)出現(xiàn),就是做工作流編排領(lǐng)域。流程機(jī)器人(RPA)軟件的目標(biāo)是使符合某些適用性標(biāo)準(zhǔn)的基于桌面的業(yè)務(wù)流程和工作流程實(shí)現(xiàn)自動化,一般來說這些操作在很大程度上是重復(fù)的,數(shù)量比較多的,并且可以通過嚴(yán)格的規(guī)則和結(jié)果來定義,現(xiàn)在越來越多的RPA軟件帶上了LLM。
ComfyUI 的工作流設(shè)計(jì)
近期出現(xiàn)的ComfyUI 是將開源繪畫模型 Stable Diffusion 進(jìn)行工作流化操作模式,用戶需要在流程編輯器中配置出每一個(gè)的pipeline,并通過不同節(jié)點(diǎn)和連線來完成模型的操作和圖片內(nèi)容生成,提高了流程的可復(fù)用性,降低了時(shí)間成本,同時(shí)它的 DSL 配置文件還支持導(dǎo)出導(dǎo)入。
Dify.AI 可被復(fù)制的工作流設(shè)計(jì)
在 Dify.AI 中,我很興奮的看到它的工作流設(shè)計(jì)語言跟 ComfyUI 會有一些相似之處,都是定義了一套標(biāo)注化的DSL語言,并且非常方便的可以使用導(dǎo)入導(dǎo)出的功能進(jìn)行工作流的復(fù)用。
模仿式工作流是最快的學(xué)習(xí)方法
Large Action Model 采用稱為“通過演示進(jìn)行模仿”的技術(shù)。檢查人們在單擊按鈕或輸入數(shù)據(jù)時(shí)如何與界面互動,然后準(zhǔn)確地模仿這些操作,他們收集知識并從用戶提供的示例中學(xué)習(xí),使他們更能適應(yīng)進(jìn)一步的變化并能夠處理不同的任務(wù)。
但是,有沒有想過一個(gè)問題:Agentic Workflow看起來十分美好,但是使用的用戶究竟有多少呢?我看了很多Agent商店,通過工作流創(chuàng)建的應(yīng)用目前來看還是比較少的(可能是出現(xiàn)周期、工作流使用的上手難度等等一系列因素導(dǎo)致),此外Agentic Workflow似乎在復(fù)雜流程上的開發(fā)又并不是那么穩(wěn)定可靠。
Idea Time:通過自然語言創(chuàng)建工作流
復(fù)雜的工作流搭建怎么會如此麻煩...這似乎跟我我理想中的Agentic Workflow并不太一樣!有沒有一種更加方便高效的方式,讓我能夠在短時(shí)間內(nèi)創(chuàng)作一個(gè)符合我預(yù)期的Agentic Workflow原型?有了,通過自然語言來構(gòu)建DSL并還原工作流。
我在之前就比較喜歡使用自然語言描述,然后使用Mermaid語法進(jìn)行創(chuàng)建流程圖表,其實(shí)DSL也是可以遵循一套約定俗成的規(guī)范進(jìn)行創(chuàng)作。
我認(rèn)為可以通過口噴需求的方式,在0-1的時(shí)候輔助我快速生成一個(gè)看上去還不錯(cuò)的工作流程,然后我再修修改改,這會降低用戶上手的門檻。
一個(gè)小思考題,Agentic Workflow該給誰用?
之前在討論Agentic Workflow的可用性觀點(diǎn),有人給我說了這么一句話:“研發(fā)看不上,產(chǎn)品看不懂,小白不知所云。”
目前我覺得Agentic Workflow拿來做MVP的產(chǎn)品測試是非常好的一個(gè)途徑,能夠在短時(shí)間內(nèi)通過低代碼或者零代碼的方式進(jìn)行創(chuàng)作一個(gè)小而美的應(yīng)用。
我的AI-Native應(yīng)用就是這么玩的。
Pailido|AI 拍立得
這是一款文案快速生成的 AI-Naitive 產(chǎn)品,各個(gè)場景由 AI Agent 驅(qū)動,僅需選中場景后點(diǎn)擊拍攝即可快速生成對應(yīng)文案。它的服務(wù)端可以是使用類似Dify.AI、Coze這種在線編輯好一個(gè)Agent應(yīng)用,然后再通過API的方式進(jìn)行集成,你僅僅需要關(guān)心你的前端、用戶輸入、你的輸出反饋就可以了,打磨好一款小而美的產(chǎn)品。
使用多模態(tài)模型,理解圖片特征和輸出場景期待,搞定小紅書文案、外賣點(diǎn)評寫作、閑魚商品發(fā)布文案...真的太快了!
所以有個(gè)問題要問問諸位了:
Reshape your workflow with AI ?
or
Reshape your AI workflow ?
AI 與人的協(xié)同關(guān)系
生成式 AI 的人機(jī)協(xié)同分為 3 種產(chǎn)品設(shè)計(jì)模式:Embedding(嵌入式)、Copilot(副駕駛)、Agent(智能代理),在這 3 種模式下,人與 AI 的協(xié)作流程也是有所差異。
Embedding 模式:人類完成大多數(shù)工作。
Copilot 模式:人類和AI協(xié)同工作。
Agents 模式:AI完成大多數(shù)工作。
Agentic Workflow驅(qū)動角色工作流變革
使用Multiagent Collaboration的方法,讓不同角色的 Agent 按照根據(jù)任務(wù)要求自主規(guī)劃選擇工具、流程進(jìn)行協(xié)作完成一件任務(wù)。
我作為一個(gè)產(chǎn)品經(jīng)理角色,我的訴求很簡單,需要完成某一個(gè)產(chǎn)品功能設(shè)計(jì),這個(gè)時(shí)候通過Agents拆解成多個(gè)獨(dú)立的任務(wù),然后遵循不同的工作流,最后給我生成一份在大體上符合我期望的輸出結(jié)果,我再修修改改就能夠達(dá)到可用的階段了。
所以,我從原子能力層重新思考,面對這個(gè)快速變化的時(shí)代,我該如何去重塑我自己的工作流,以不變應(yīng)萬變呢?
“輸入”、“處理”、“輸出”、“反饋”構(gòu)建了我最底層的信息處理邏輯,我把它比作四個(gè)齒輪,齒輪之間通過不同的銜接工具逐步推動運(yùn)轉(zhuǎn),從需求作為輸入、結(jié)果作為輸出,圍繞著信息加速,不斷驅(qū)動我向前。
重塑獲取信息的方式
搜索引擎作為互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,同時(shí)也是互聯(lián)網(wǎng)的入口,對于用戶而言,從解決問題出發(fā),搜索引擎和基于大模型的聊天機(jī)器人的目標(biāo)從根本上是一致的。自 2022 年底 ChatGPT 發(fā)布,其通過問答形式被認(rèn)為將對傳統(tǒng)搜索引擎帶來顛覆。
近期出現(xiàn)的各類AI搜索引擎,類似perplexity.ai、metaso、360搜索、ThinkAny等等,都是在不斷顛覆傳統(tǒng)的搜索引擎。
輔助高效的處理信息
閱讀完一份 10 萬字的 PDF 研究報(bào)告需要多久?這份報(bào)告主要講了什么內(nèi)容?有沒有我要關(guān)注的點(diǎn)?
信息表達(dá)更簡便
放在以往很難想象,如果要實(shí)現(xiàn)下面這倆張圖,可能會設(shè)計(jì)一系列的思考、草稿、理清邏輯等等流程。
現(xiàn)在用自然語言描述一句話就給你生成了這樣美觀可用的圖片,極大的降低了不同角色的創(chuàng)作門檻和周期,是真的簡便。
那么新型的產(chǎn)品設(shè)計(jì)方式也就出現(xiàn)了,在我原來的工作流中,我作為一名產(chǎn)品經(jīng)理,我會開始使用AI去重新構(gòu)建我的工作流:使用 AI 進(jìn)行搞定用戶畫像、使用 AI 進(jìn)行競品調(diào)研、使用 AI 設(shè)計(jì)產(chǎn)品測試用例、使用 AI 繪制產(chǎn)品功能流程圖...真的太多了。
雖然我也推薦了一些我自己的工作流上使用的產(chǎn)品,但是我比較建議的是:每個(gè)人都是獨(dú)特的個(gè)體,應(yīng)該先摸清楚自己的日常工作流是怎么樣的,然后通過每一個(gè)工作節(jié)點(diǎn)線索,去找到適合你自己使用的工具。
就好比,我現(xiàn)在初出茅廬,手上握著+1攻擊力的武器,+1的防御裝備,這不影響我去打怪升級這個(gè)事情,假如你找到了一件合適自己的武器,它可能是+1000攻擊力,你換上就好了,是能夠快速的在你原來的這套工作流里進(jìn)行戰(zhàn)力升級。
關(guān)于Agent的未來,我只想說:曾被認(rèn)為的異想天開的想法,都可能會是 AI Agent 的未來。AI Agent我們其實(shí)可以理解為一個(gè)技術(shù)浪潮中不斷前進(jìn)的新名詞,而技術(shù)迭代會不斷向前。
我很驚訝的發(fā)現(xiàn):曾經(jīng)五年前躺在我手機(jī)備忘錄里的一些在當(dāng)時(shí)不可能實(shí)現(xiàn)的想法,在如今時(shí)代也逐一被驗(yàn)證。
所以,還有什么不能想的呢?
腳踏實(shí)地,仰望星空。
Agent的未來是一個(gè)浩渺的宇宙,行業(yè)的Know-how是每一個(gè)人在短期內(nèi)不可被替代的固有知識資產(chǎn),你可能會說我可以通過一系列的方法論去獲取到很多行業(yè)信息,但是非常多的行業(yè)潛規(guī)則,就像冰山一樣,你可能只看到了表面的一些內(nèi)容,冰山下的不可被觀測的,也是這個(gè)時(shí)代個(gè)人的競爭力。
毫無疑問,LLM會有更低的成本、推理處理速度更快、支持多模態(tài)全面接入、會有更多AI-Native應(yīng)用開始誕生...
我肯定是,AGI的時(shí)代會離我們越來越近了。
感謝你看到這兒,如果你覺得不錯(cuò),歡迎點(diǎn)贊分享關(guān)注我哈哈,我們下期再見。
? THE END
?? 只想整活做點(diǎn)有趣的事兒
歡迎點(diǎn)擊下方公眾號關(guān)注我
覺得我的內(nèi)容還不錯(cuò),順手點(diǎn)個(gè)贊、分享、在看
都是對我最好的認(rèn)可,謝謝您!
