许多任务不能在单个步骤或单个工具调用中完成,但智能体可以决定采取什么步骤。例如,为了简化HuggingGPT论文(如下所引)中的一个例子,如果你想让一个智能体考虑一张男孩的图片,并以相同的姿势画一张女孩的图片,任务可能被分解为两个不同的步骤:(i)检测男孩图片中的姿势,以及(ii)渲染一张在检测到的姿势下的女孩图片。LLM可能通过微调或提示(使用少样本提示)来指定一个计划,输出一个格式如"{tool: pose-detection, input: image.jpg, output: temp1 } {tool: pose-to-image, input: temp1, output: final.jpg}"的字符串。