微软重磅开源 Magentic-UI，彻底革新AI智能体交互方式，支持浏览器调用、文件操作和代码生成，并提供部署和测评保姆级教程，开启人与AI智能体协作新时代。─影片 Dailymotion

disona5381

```markdown # 微软 Magentic-UI 深度解析：重磅开源，AI智能体交互新纪元  ## 第一章：前言 - 微软重磅开源 Magentic-UI  ### 1.1 震撼登場 - Magentic-UI 揭秘     * 1.1.1 微软的战略布局：AI智能体交互的未来     * 1.1.2 Magentic-UI 的核心价值：彻底改写交互方式     * 1.1.3 开创人与AI智能体协作新时代  ## 第二章：Magentic-UI 核心功能详解  ### 2.1 浏览器调用与文件操作     * 2.1.1 浏览器调用机制：实现无缝集成     * 2.1.2 文件操作功能：数据交互的桥梁     * 2.1.3 示例代码演示：文件读取、写入、处理  ### 2.2 代码生成能力     * 2.2.1 基于AI的代码生成引擎     * 2.2.2 支持多种编程语言的代码生成     * 2.2.3 提升开发效率的强大工具  ### 2.3 智能体交互框架     * 2.3.1 核心组件架构     * 2.3.2 智能体生命周期管理     * 2.3.3 交互流程设计与优化  ## 第三章：保姆级部署与测评教程  ### 3.1 环境准备     * 3.1.1 系统要求     * 3.1.2 依赖库安装     * 3.1.3 密钥配置  ### 3.2 部署指南     * 3.2.1 部署步骤详解 (图文并茂)     * 3.2.2 常见问题排查     * 3.2.3 部署优化建议  ### 3.4 测评与测试     * 3.4.1 核心功能测试用例     * 3.4.2 性能测试与优化     * 3.4.3 实际应用场景演示  ## 第四章：未来展望与发展趋势  ### 4.1 Magentic-UI 的潜在应用场景     * 4.1.1 智能助手开发     * 4.1.2 自动化流程构建     * 4.1.3 知识图谱构建与应用  ### 4.2 社区建设与生态发展     * 4.2.1 贡献指南     * 4.2.2 开发者社区建设     * 4.2.3 持续迭代与优化  ## 附录     * 附录A：Magentic-UI 官方文档链接     * 附录B：常见问题解答 (FAQ) ```

Transcript

00:00微软在昨天开源了最新的Magentic UI智能体项目

00:03这个项目的最大特色就是人类用户可以与智能体实时交互

00:08协同规划任务甚至能够协同执行任务

00:11而且可以操作本地文件甚至能够执行本地的系统命令

00:16而且Magentic UI是在Magentic One的技术上进行的改进

00:21在之前的视频中我为大家讲解并且演示过

00:24微软的Magentic One这款多智能体协作框架

00:28大家如果不了解Magentic One的话也可以看我之前发布的视频

00:32我会将之前发布的视频链接放在本期视频下方的评论区的置顶

00:37因为现在大部分AI智能体框架都属于完全自动化操作

00:42也就是只需要让用户去描述所需要执行的任务

00:46然后剩下的就交给AI智能体完全独立去完成所有的工作

00:51像Magentic UI却反其道而行之提出了一个更加人性化的理念

00:56也就是AI智能体应该是人类的驻守而不是完全的替代者

01:00用户只需要输入任务然后发送给Magentic UI

01:04然后Magentic UI在开始执行任务之前

01:07会创建一个清晰的分布计划还有任务步骤

01:11用户如果对AI智能体制定的这些计划不满意也可以进行修改

01:16也就是AI智能体制定的每个步骤我们都可以去修改

01:20当修改完成之后我们就可以让AI智能体来执行整个步骤了

01:23像这样的话 AI智能体执行的每一个步骤都能实时显示在这个UI界面上

01:29用户可以清楚的看到AI在做什么在执行哪些任务

01:33这样就避免了黑盒操作的不确定性

01:36因为传统的可以调用浏览器的AI智能体

01:40比如说像Browse Use

01:41它在执行任务的时候用户无法干预

01:44但Magentic UI用户就可以干预它的每一个步骤

01:47因为用户无法干预了AI智能体

01:50它可能访问一些与我们任务无关的网站

01:53抓取一些无关的信息

01:54最后导致浪费非常多的token 还达不到用户预期的效果

01:58所以我们使用微软的Magentic UI

02:01就可以轻松与智能体协同执行任务

02:03从而让任务更加精准且顺利的完成

02:06本期视频将为大家详细演示我们如何部署Magentic UI

02:10并且与Magentic UI协同完成复杂的任务

02:13而且还会为大家演示

02:15我们以代码的方式来调用Magentic UI来执行复杂任务

02:19为了方便执行代码

02:20我将在Petram中进行演示

02:22首先我们打开Petram

02:23然后新建一个项目

02:25在Pensin版本这里我选择3.11

02:27因为这个版本比较稳定

02:28项目创建好之后

02:30我们点击Petram所下角的这个终端这里

02:33在Petram终端我们执行这条命令

02:35来安装Magentic UI

02:37我们直接执行就可以

02:38我这里已经安装完成

02:40下面我们需要确保我们的电脑

02:42已经安装了Docker

02:43如果没有安装的话

02:44可以从Docker官方网站来下载Docker的安装包

02:48下面我们要确保已经打开了Docker桌面板

02:51下面我们要确保用Export命令

02:54来设置一下OpenAI的API key

02:56然后Windows用户需要将Export改为Set

02:59下面我们就可以执行这条命令

03:01来启动Magentic UI

03:03然后它的端口是8081

03:04我们直接执行就可以

03:06这里显示执行成功

03:07然后我们点击这个链接

03:09在浏览器中打开

03:10打开之后这里我们就看到了这个非常友好的交互界面

03:14下面我们就可以输入任务的提示词

03:16来测试一下

03:17我们与AI职能体协同执行任务的效果

03:20好我们直接发送

03:21我输入的提示词是抓取

03:23AI超越域博客的第二篇文章

03:25并进行总结

03:26然后改写为一篇公众号

03:28并保存到本地Markdown文件里

03:30这里是Magentic UI

03:31为我们制定的这四个步骤

03:34然后我们可以看一下这四个步骤是否准确

03:37第一个步骤是抓取博客的第二篇文章

03:40第二步是总结博客内容

03:41第三个是将内容改写为公众号风格的文章

03:45第四步就是将公众号保存为Markdown格式

03:49然后我们如果对它制定的步骤不满意

03:51然后这里我们还可以点击重新生成这个计划

03:54这里是它重新生成的这个计划

03:56如果我们对它重新生成的计划还是不满意

03:59比如说第三步

04:00它没有提到这个公众号文章的字数

04:04然后我们可以给它加入字数

04:05我们可以直接在第三步这里

04:07然后直接输入我们的要求

04:09要求公众号文章的字数在1000字左右

04:12这样的话我们就在它制定的这个计划的基础上

04:16然后让这个计划更加完善

04:18而且这里我们还可以给它加入标题的字数要求

04:21标题字数不要超过45个字

04:23像第四步

04:24他们又提到将这个文件保存到哪里

04:27然后我们可以直接告诉它

04:28将文件保存到桌面

04:30下面我们就可以让它来执行这个任务

04:32然后我们直接点击这个接受计划

04:34现在它开始执行第一步

04:36搜索并且获取我这个博客的第二篇文章

04:40它这里输出

04:41它需要先搜索我这个博客的官方网址

04:44并且前往找到第二篇文章

04:46现在它开始打开了这个浏览器

04:48然后这里调用了必应的搜索

04:50然后这里点开了我这个博客

04:52好现在它点击第二篇博客

04:55现在已经进入了我博客的第二篇博客

04:58现在它开始浏览这个博客

05:00并且抓取这个博客的内容

05:03现在它开始执行第二步

05:04对原文进行总结

05:06这是它总结了我们这个博客的文章

05:08下面它开始执行第三步

05:10它要将这些内容改为公众号文章

05:13这里它成功改写成了微信公众号的文章

05:16然后这是给的这个标题

05:18然后下面这里就是完整的这个公众号文章

05:21现在它开始执行第四步

05:23它要将这个文章保存为本地的Markdown格式

05:27它改写为微信公众号的这个文章

05:29然后这里我们就可以点击下载

05:31然后我们用VSCode打开看一下

05:33这就是它改写后的这个微信公众号的文章

05:36然后这里采用了Markdown格式

05:38这样的话我们就有了一个交互性更强的AI智能体

05:42而且它为我们完成的任务更加精准

05:45下面我们再测试一个任务

05:47然后我们输入提示词

05:48搜索关于大模型在代码生成中的应用的最新认为

05:52下面我们点击发送

05:53现在它为我们制定好了这个计划

05:55然后这个计划分为三步

05:56在第一步中它提到了两个AI

05:59在第二步中它提到将对内容进行梳理

06:02第三步它将编写一份文件综述

06:05好它制定了这个计划总体来说比较不错

06:08然后如果我们只让它搜索某个AI的话

06:11我们也可以在底部的对话框中输入更加明确的要求

06:15我这里输入只研究Cloud AI的代码生成

06:18下面我们点击发送

06:20这里它为我们重新生成了这个计划

06:22如果我们想让它第三步生成的内容保存到本地

06:26然后我们还可以继续搞出它

06:27下面我们输入提示词

06:29将最终结果保存为Markdown格式

06:31并存入本地文件

06:33然后我们继续发送

06:34这是它为我们重新生成的计划

06:36这个计划就比较完善了

06:38然后我们直接点击接受这个计划

06:40这里是它执行的第一步的这个步骤

06:43然后这里是它搜索到的这些内容

06:45而且这里我们还可以介管这个浏览器的操作权限

06:48当我们点击这个浏览器的时候

06:50它这里就弹出这个小框来提示

06:52在这个小框里

06:54我们可以继续输入提示词

06:55让它来变更任务

06:57下面我们是从archive上来进行搜索

07:00然后我们直接点击

07:01像这样的话

07:02它就会变更要执行的这个任务

07:04下面这里它说用户需要检索archive论文

07:07需要补全archive部分信息

07:09方可进行整理和撰写

07:11可以看到现在它已经打开了archive

07:14然后这里我们要稍等一下

07:15可以看到这里它替换多种搜索关键词进行搜索

07:19好下面这里它搜索到丰富的大模型生成论文

07:22但涉及cloud的极为优先

07:24下面这里我们可以让它暂停

07:26然后我们这里可以继续引导它来执行任务

07:29下面我们就可以输入提示次

07:31我输入的是无需限定cloud

07:33请根据搜索结果继续执行

07:36然后我们直接点击运行

07:37像这样的话

07:38它就不限于这个cloud AI

07:40它就会根据这些搜索结果来继续去执行

07:43像这样我们就成功打断了这个智能体

07:46它的执行过程因为像其他AI执行体

07:49我们无法去打断它们的执行过程

07:51现在这里它执行到了第三步

07:54它正在撰写这个文献综数

07:56这里已经成功执行完成

07:58然后这里生成了最终的这个报告

08:00我们可以点击下载

08:01这里下载完成

08:02然后我们打开看一下

08:03这是它为我们生成的大模型

08:06在编程方面的这个报告

08:08像这样的话

08:09我们就成功实现了

08:10Magintake UI在执行任务的时候

08:12我们能够进行干预

08:14下面我们可以看一下Magintake UI它的技术架构图

08:17首先是用户交互层

08:19用户输入内容

08:20然后就到了这个前端应用层

08:22然后这里包括绘画管理器

08:24还有计划编辑器

08:25还有浏览器视图

08:26还有实时通信的

08:28最后再到这个后端服务

08:30它使用了fastAPF服务

08:32然后就是团队管理器

08:33还有配置管理器

08:34还有Dock基层

08:35还有这些安全机制

08:37然后就是多智能体系统

08:39由这个负责指挥的AI智能体

08:41将任务分配给下面的这些智能体

08:44包括网页操作专家

08:45还有代码执行专家

08:47还有文件处理专家

08:48还有就是这个人机接口

08:50然后这里是Magintake UI

08:52它的执行流程

08:53用户输入内容

08:54然后由这个指挥者

08:56接收这个用户的输入

08:58然后再生成这个计划

08:59用户如果对计划不满意

09:01可以让它继续编辑

09:02当用户对这个计划满意之后

09:05然后这里就开始分布执行

09:06这里会根据计划调用网页浏览器

09:09或者代码生成

09:11或者文件管理

09:12或者是通过人机接口

09:14由用户打断这个任务的执行

09:16最后这些步骤都执行完成做

09:18再生成最终的结果

09:20展示给用户

09:21现在我们测试的是

09:22这个带有UI的智能体

09:24下面我们也可以以代码的方式

09:26来调用Magintake UI

09:28我们可以详细看一下这个代码

09:30这里就是导入所需的依赖

09:32然后这里从Magintake UI里

09:34导入了这个写代码的智能体

09:36还导入了这个群聊管理器

09:38还导入了这个用户智能体

09:40下面这里就是这个主函数

09:42然后这段代码是解析用户输入的这个命令

09:46在模型这里我们调用了GPT4O模型

09:49然后这里我们设置了终止条件

09:51下面这里就是创建代表人类用户的这个智能体

09:54然后这段代码就是我们创建了一个用于编程的AI智能体

09:58这里是这个智能体的名称

10:00这里就是调用的这个GPT4O模型

10:02下面这里就创建了一个团队管理器

10:05也就是这个写代码的智能体和人类进行交互

10:08这里设置的最大对话轮数是30轮

10:11然后这里我也可以将它改成10轮

10:13下面这里就是初始化这个团队

10:16这里是获取用户的输入

10:18这里是启动对话流程

10:20然后这里就是展示这个对话过程

10:22下面我们就可以在PyCharm的中段来运行一下这个代码

10:26来查看一下这个效果

10:27我们直接用PyCharm命令加这个脚本的名称

10:30后面再加上这个工作路径这个参数

10:33在参数这里我们就加入了一个完整的一个路径

10:37它会将编程生成的代码写入到我们设置的这个工作路径

10:41下面我们就可以输入任务提示词

10:44写一个PyCharm脚本

10:45抓取我博客的前五篇文章的标题和简介

10:49我们直接运行

10:50这里它成功为我们编写的这个脚本

10:52而且这里还输出了这个结果

10:54在这里我们可以继续输入任务的提示词

10:57然后我们输入了提示词词将结果保存到本地

11:00然后我们继续执行

11:02这里运行完成

11:03然后这里提示保存到了这个文件里

11:05然后我们点开看一下

11:07它是否成功抓取到了这些内容

11:09这是它抓取到的这些内容

11:11像这样的话

11:12我们就用代码的方式调用了Magentic UI

11:14从而实现了一个能够进行编程的AI智能体

11:18好

11:18本期视频所有用到的代码和笔记

11:20我都会放在视频下方的描述栏或者评论区

11:23如果你在视频下方无法找到的话

11:25也可以通过我的博客去查找本期视频所有对应的笔记

11:29本期视频就做到这里

11:30欢迎大家点赞关注和转发

11:32谢谢大家观看

微软重磅开源 Magentic-UI，彻底革新AI智能体交互方式，支持浏览器调用、文件操作和代码生成，并提供部署和测评保姆级教程，开启人与AI智能体协作新时代。

类别

文字稿

推荐视频