“让天下没有难做的 Agent” | 对谈阿里云无影总裁张献涛

AITNT
正文
资源拓展
“让天下没有难做的 Agent” | 对谈阿里云无影总裁张献涛
2025-08-23 12:15

中文提前预判,准备好未来两三年的变化。


“让天下没有难做的 Agent” | 对谈阿里云无影总裁张献涛


中国的大厂高管卧虎藏龙,但普遍低调,难得出来接受播客的长时间专访。


本周,「十字路口」的嘉宾就是这样一位始终在幕后深耕的重量级嘉宾:阿里云无影事业部总裁张献涛(花名:旭卿)。


“让天下没有难做的 Agent” | 对谈阿里云无影总裁张献涛


他此前长期负责阿里云的弹性计算团队,带领团队完成了“神龙”架构的设计与落地。这套架构奠定了阿里云在全球云计算行业中的独特地位,并在技术会议与论文中获得广泛的国际认可。


旭卿和我们聊的话题是 Agent Infra。


“让天下没有难做的 Agent” | 对谈阿里云无影总裁张献涛


2025 是 Agent 元年,十位创业者有八位都在造 Agent。十字路口过去几个月做了大量相关的访谈与评测,发现决定 Agent 能力上限的,不止模型本身,也不止工程和交互的打磨,基础设施也至关重要——Agent Infra。


Memory、Tool Use、Task Planning、Runtime、Multi-Agent 协作、安全与隐私机制等等环节缺一不可。就像一个新员工入职后,我们要给他们配电脑、配网线,也要提供钉钉、飞书、邮箱还有各种 AI 效率工具,如果基础设施搭不好,Agent 和新员工一样,都只能干瞪眼。


有挑战,就有机会 ——因此,不论是创业公司还是大厂,都在纷纷加码 Agent Infra。阿里云无影团队推出的 AgentBay,就是一次全新的尝试:为 Agent 提供云端沙箱、算力和工具链,搭建一个完整的运行环境。最近一款爆火的全球首个手机通用Agent背后,就有无影提供了Agent Infra。


本周,我们邀请到:


张献涛(旭卿)|阿里云无影事业部总裁


屈立威(安陈)|阿里云AgentBay 产品负责人


与我们一起,探讨 Agent Infra 的过去、现在与未来——从技术原理到行业格局,从战略判断到组织转型,再到创业与投资的机会地图。


如果你是开发者、创业者、投资人,这是帮助你看得更懂 Agent Infra 的一期。


微信收听播客:


“让天下没有难做的 Agent” | 对谈旭卿(阿里云无影事业部总裁)、安陈(AgentBay 产品负责人),十字路口Crossing,1小时6分钟


小宇宙收听播客:


“让天下没有难做的 Agent” | 对谈阿里云无影总裁张献涛


👦🏻 Koji

2025 年是 Agent 的元年,十个创业者里有八个都在做各种各样的 Agent。在「十字路口」,我们过去几个月做了大量访谈与评测,发现有一个规律决定了 Agent 的能力上限:除了模型本身、工程和用户体验的打磨之外,还有非常重要的基础设施——Agent Infra。


从记忆、工具使用、任务规划,到 Runtime 或沙箱,再到多 Agent 协作,甚至安全和隐私机制,这些环节缺一不可。就像新员工入职,要配电脑、网线、装飞书、钉钉,才能开始工作。如果基础设施搭不好,Agent 和新员工一样都没法投入。但挑战往往意味着机会,因此无论是创业公司还是大厂,最近都在加码 Agent Infra。今天我们非常开心邀请到了阿里云副总裁、无影事业部总裁旭卿,以及产品经理安陈,来和我们聊聊 Agent Infra 的过去、现在和未来。


阿里云无影团队推出了 AgentBay,这是一个全新的尝试,为 Agent 提供从云端沙箱到算力、工具链等一系列完整运行环境。我们准备了 20 个问题,从技术原理到行业格局,从创业机会到职业建议,希望能帮助大家在信息过载的时代建立起清晰的 Agent Infra 思维框架。


因为我们觉得 Agent Infra 不只是像旭卿、安陈这样的技术大佬的事情,它会像云计算一样影响到每个人的工作和生活,也会是每个人的创业机会。我们先从一个轻松的问题开始,想请问二位,你们日常用得最多的 Agent 产品是什么?用它来做什么?


👦🏻 安陈

我用得最多的一个叫 Onlook,它是帮助设计师快速设计前端应用的 Agent 工具。我用 Onlook 能够通过自然语言一键生成前端交互设计。另外一个是我们集团内部自研的 Agent,淘宝团队做的,叫星流。它的核心能力是帮我快速阅读一些外网论文。


👦🏻 Koji

那旭卿呢?


👦🏻 旭卿

我用得比较多的是我们集团内部的 OneDay,是一个 Agent 平台。当然,外部的话,Cursor 也非常好用。


👦🏻 Koji

所以旭卿你是学计算机的对吧?你刚入职场的时候也会自己写代码吧?


👦🏻 旭卿

在阿里写了好几年代码。


👦🏻 Koji

你最后一次写代码是哪一年?


👦🏻 旭卿

大概 2017、2018 年。


👦🏻 Koji

很多技术管理者,比如 CTO 或技术一号位,在做管理后就会更关注战略或架构,而不再写代码。但自从 Cursor 出现,很多人又重新找回了写代码的快乐。


👦🏻 旭卿

是的。前几天我还拜访了达摩院院长张建峰,他也在用 Cursor 写代码。


👦🏻 Koji

我很好奇他在用 Cursor 写什么?


👦🏻 旭卿

他给我 demo 了一个小游戏,类似 Windows 里的扫雷程序。


Agent Infra 全景


👦🏻 Koji

接下来我们开始聊 Agent Infra。第一个问题,能否给大家科普一下什么是 Agent Infra?它和传统的 AI Infra 有什么关系?差异点在哪?


👦🏻 安陈

先说 AI Infra,这个大家耳熟能详一点。过去几年大家在卷大模型时,关注的是 Token 吞吐、首 Token 延时、大规模分布式训练和推理效率,还有成本。这些问题背后就是 AI Infra:怎么通过足够好的计算集群实现训练、推理和部署,或者发布训练的平台。


👦🏻 旭卿

比如提升 GPU 的效率。


👦🏻 安陈

对。当时关注的更多是这部分 Infra。它不完全是 IaaS,也可能是 PaaS。很多企业会用模型去做 fine-tuning。现在有很多开源模型,这些统称为 AI Infra。它最后聚焦于实现 Model Service。


但到今年,大家更关注上层应用搭建。在 Agent Infra 时代,过去的 Model Service 成为其中一部分。为了搭建一个 Agent 应用,除了 AI Infra,还需要很多其他组件,比如 Memory、任务编排、工具使用等,它们都是 Agent Infra 的重要支撑部分。


👦🏻 旭卿

我觉得 Agent Infra 能够成为业界共识,是因为它和传统 Infra 有一定相通的理念。比如算力,Agent 要执行代码或浏览网页,都需要算力支撑;还有存储,比如 AI 领域经常提到的上下文的长期记忆;还有网络,网络在 Agent Infra 里可以被认为是连接了更多能力。比如 MCP,它能让 Agent 接入更多工具,以前可能大模型只去聚焦于思考,但现在通过这些工具,它可以实质性地付诸去做一些具体的工作。


👦🏻 Koji

为什么今年 Agent Infra 会成为大家的共识?


👦🏻 旭卿

去年世界人工智能大会,大家更多讨论大模型或 Chatbot。今年春节后,Manus爆火,业界开始讨论通用 Agent 怎么构建。那时我和安陈还有同事受邀参加美国英伟达 GTC 大会,看到美国有越来越多公司在做 Agent,英伟达投资的公司几乎都在讲 Agent。我们觉得自己应该赋能像 Manus 这样的公司,做一层 Agent Infra,让他们更高效地构建 Agent。


于是我们连夜开会调整产品方向,结合阿里云在计算、存储、网络基础设施的能力,确定了 AgentBay 的研发方向。经过四五个月团队努力,我们上周在世界人工智能大会期间发布了这个产品,内外部反响都非常好。


👦🏻 Koji

我们待会可以展开聊聊无影的这次转型决策:因为你们是一个非常成熟的事业部,有增长、收入和利润都很好的主要业务,却能一夜之间连夜开会转型,这是一个很大的战略转弯,待会我们想聊聊其中的管理与战略思考。


但我们先回到 Agent Infra,可否请二位再科普一下:Agent Infra 一般有哪些主要组成部分?对 Agent 来说分别意味着什么价值?


👦🏻 安陈

当我们讨论 Agent 的设计或部署时,有一些名词听起来很熟悉。大模型像引擎的 CPU,长期记忆和短期记忆像内存和存储,临时缓存和长期存储。今年 7 月很火的一个概念是 Context Engineering;还有记忆管理、任务编排、沙箱、多 Agent 架构、工具使用协议等。之前没有人明确提出它们长什么样,但大家都不约而同的在往这个方向走,这些赛道逐渐出现了玩家,慢慢成为行业标准范式。


👦🏻 Koji

我们来盘点一下 Agent Infra 的几个关键赛道:第一是记忆,第二是工具使用,第三是任务规划,第四是沙箱,第五是 Multi-Agent 协作,第六是安全与隐私。我们逐一展开。先从记忆开始。记忆相关的 Agent Infra 赛道,二位比较关注哪些公司和产品?


👦🏻 旭卿

记忆领域有 Memory0 和 MemoryGPT,做得都比较有特色,也比较深入。工具使用方面,比如 E2B、BrowserBase,主要解决 Computer Use 和 Browser Use。任务规划更多取决于模型的智能化程度,各家都有布局,很难说谁做得最好。


👦🏻 安陈

在我看来,任务规划既是编排,也是协议。现在大多数 Agent 都是 Multi-Agent 架构,那就需要定义 Multi-Agent 之间协作的工作流。业界常见的框架有 LangGraph,也可以用 OpenAI Agency SDK。我们内部也有一套纯自研的 Agent 协作框架,只是还没有开放。另一个例子是谷歌的 A2A,它尝试定义一个协作范式,实现上更激进一些。


在安全领域,我们现在做的产品本质上也与安全相关。代码执行需要云端隔离环境来保障多租户的安全隔离和本地零侵入。同时,业界也有公司专注代码安全围栏和敏感数据保护。


👦🏻 旭卿

安全之外,身份管理也很重要。比如在 Computer Use 阶段,Agent 操作电脑访问不同网站时,需要自动完成身份认证。这类问题值得深入研究,我们也在布局。

“让天下没有难做的 Agent” | 对谈阿里云无影总裁张献涛


👦🏻 Koji

在这些赛道里,你们认为哪一环最重要?


👦🏻 安陈

其实都重要。对开发者来说,每个组件都是刚需。比如沙箱,用户可能感知不到,但对代码执行安全至关重要。再比如记忆,所有 Agent 都会遇到上下文窗口的限制,因此长期记忆是普遍需求。虽然没有明确的优先级,但不同组件在感知和实现上的顺序确实不同。


👦🏻 Koji

那现在 Agent 开发者在这些组件上,更倾向于自研还是用第三方服务?


👦🏻 旭卿

在 Agent Infra 概念出现之前,几乎每家公司都想垂直自研,但很难。就像一个新员工入职,如果连桌椅板凳、电脑网线都要自己操办,效率会很低。这也是制约 Agent 快速发展的关键问题。如果我们能把这些组件做成系统化、易用的服务,Agent 开发者会轻松很多。


👩🏻 Ronghui

相当于又要跑步又要修路,很难。那在客户选择 Agent 服务时,他们最看重什么?


👦🏻 旭卿

不同公司关注点不一样。比如国内某大模型厂商也在搭建自己的 Agent,最初自建虚拟代码执行环境和 Browser Use、Mobile Use,后来发现我们有 AgentBay,就迅速切换过来,因为他们需要 20 万到 40 万级的并发虚拟机,对于一家模型公司来讲,这并非他们的优势。


另一个例子是某汽车公司,他们做车载智能体,需要记住司机的长期习惯和提问,所以在长期记忆方面诉求很强。我们基于向量数据库为他们搭建长期记忆系统,保证用户可以持续获得一致的交互体验。


👩🏻 Ronghui

所以你们的定制化能力很强?


👦🏻 旭卿

我们提供的是通用能力,但每家公司在做 Agent 时会有不同的优先点。


👦🏻 Koji

那这些模块里,有没有一些长期来看非常重要,但今天却很容易被开发者忽视的?


👦🏻 旭卿

有两个:身份管理和安全。很多公司早期更关注效率,忽视了隐私和安全。但在云计算领域,我们从一开始就被训练成必须考虑数据保护,这是基因里的能力。


👦🏻 Koji

了解,这算是做云服务的肌肉记忆。因为一旦出问题,后果是灾难性的。那我们再聊聊阿里云的 AgentBay。在 Agent 元年,Agent Infra 带来了大量创业机会,你们为什么想到要做 AgentBay?


👦🏻 旭卿

随着大模型和 Agent 发展,我们发现它们需要更多「趁手的工具」。就像人用电脑和浏览器提升效率一样,给智能体配上 Computer Use、Mobile Use、Browser Use 后,它们的能力会更强。我们最初只计划提供这些基础能力,但随着实践推进,客户对长期记忆、身份管理和安全的需求越来越明显,所以我们把这些能力也规划出来。这是产品的第二阶段,更加聚焦核心问题。


👦🏻 Koji

比如 E2B、Browser Use、LangGraph 这些公司都只专注在自己的垂直领域,而像 AWS 的 AgentCore 和你们的 AgentBay,才会系统化地覆盖全链路。这样「十项全能」每个都要做,你们有感觉到注意力被稀释,可能没有办法在某些垂直领域和专门的 startup 去打,你们怎么看待这个问题。


👦🏻 旭卿

我们一直觉得 toB 的业务是一个长期赛道,所谓长期赛道就是在各个领域都是一个相对来说比较长期的投入。我们很难说在很短的时间内把各个领域都做到极致,但我们追求在各方面都保持中上水平,整体形成很强的综合能力。同时把组件系统化,而不是割裂开来。


无影 AgentBay


👦🏻 Koji

那咱们如果面临着,比如说我们做的这个沙箱,对吧?去和 E2B 比较,那咱们的这个沙箱比起它有哪些差异?或者有哪些优势呢?


👦🏻 安陈

如果要回答这个问题,我先回答上一个问题。其实现在业界在垂直领域里做得比较好的 startup,他们更多是面向头部开发者。也就是说,这些 AI 公司或者 agent 公司,本身就有能力把不同的组件拼接起来,搭建一个复杂的应用系统。但云计算厂商想做的,其实是一门普惠的生意。


我们希望把这些复杂的组件,最后都变成低代码化的,或者说是中小型创业公司也能轻松上手的平台。所以这是我们和他们之间定位上的差别。回到您这个问题,我觉得我们的优势大概有三点:


第一点是易用性。我们一开始的设计就是面向中小开发者,所以产品一上来就先支持了 MCP,对吧?让开发者更容易上手。


第二点是完整性。我们的沙箱不仅仅是一个 code 环境,还包括 mobile 环境、browser 环境。我们还把 agent service 底层统一的持久化系统接了进来,未来还会加上 memory context 等等。这样对客户来说,这就不仅是一个垂直产品,而更像是一个完整的 agent 建设平台。


第三点是前瞻性。我们会更关注 agent 长远的发展方向。比如说,一些头部开发者可能只希望你给我一个「原子化」的沙箱组件,由他们自己去感知和控制。但 SMB 开发者并不想自己去管理沙箱里的各种 agent,他们希望平台本身能提供更强的感知和控制能力。


举个例子:如果我只给您一个浏览器容器,让您自己去调度,最简单的方式是装一个开源的 provider,通过 DOM tree 做可视化操控。但在浏览器环境里,仅靠 DOM tree 是不够的,比如 iframe 或视频内容,模型光靠文本输入是完全感知不到的。这个时候,就需要结合多模态模型,才能真正理解当前画面发生了什么。


所以,作为提供 browser user 的服务商,我们必须研发和组装多模态模型,让它既能感知浏览器画面,又能多模态输出。这样最终才能帮客户真正把整个环境的驱动和感知能力补齐。


👩🏻 Ronghui

对,那感觉从战略上你们更强调普惠,更看重 SMB 客户。


👦🏻 旭卿

是的。比如我们的所有能力都以 API 的形式对外开放,开发者只需要简单调用 API,就能获得对应的功能。


👩🏻 Ronghui

这很符合阿里的风格,让天下没有难做的 agent。


👦🏻 Koji

我们知道 AWS 也推了 AgentCall,你怎么看 AgentCall 和 AgentBay 在定位或优先级上的区别?能给大家讲讲相同点和不同点吗?


👦🏻 旭卿

我们大概是在 4 月 7 号的峰会上发布了 AgentBay,当时更多还是一些概念和产品设计的雏形,也给外部客户开放了一些简单的能力试用。到了世界人工智能大会,我们正式发布了商用版本,让中小型开发者能直接在官网上用到完整产品。


同期我们也看到 AWS 推出了 AgentCall。发布后我们做过对比分析,发现大家在看 Agent Infra 的时候,思路其实是比较一致的。无论是产品能力、接口定义,还是整体布局,相似度都很高。


👦🏻 Koji

那你有没有感觉,比如 AWS、火山,或者其他云厂商,在 Agent Infra 上谁投入的力度最大?像资金、团队规模,甚至一号位老板的决心这些,有没有明显的差别?


👦🏻 旭卿

这个领域对整个业界来说,都是 AI 的重要应用方向。所以我相信各家公司都会非常重视。以阿里云为例,我们 CEO 吴泳铭,其实对 AgentBay 和 Agent Infra 都非常关注。今年年初的全员启动会上,他就重点提到了 Agent Infra。我们在产品发布之前,也专门向他做了新一轮的汇报,他对目前的进展非常满意。


在这个领域,老板在投入上也很舍得,最近刚刚给我们加人、加钱、加资源。可以说,从 1 号位到各个事业部,再到具体的一线团队,大家都很看重这个方向,也很认可这是正确的战略。


👦🏻 Koji

为什么会这么看重?是因为这是一个防守策略,还是说是一个进攻策略?


👦🏻 旭卿

我相信从 1 号位的视角,这还不是单纯当作一个生意来看,而是把它看作 AI 应用过程中的基础设施。如果云厂商有资源、有资金,却不去建设这些能力,那反而会拖慢 AI 的进程。


另外,虽然老板给我们加了人、加了资源,但从来没有要求我们必须做到多少营收,而是更关心有多少客户真正用上了这个产品。


👦🏻 Koji

这个很有意思,因为本来我们下一个问题就是想问说又加钱、又加人、又加资源,那 OKR 有没有加?KPI 有没有加?


👦🏻 旭卿

这个确实是没有加的,因为在这个阶段我们对于 AI 的判断还是处于一个比较早期的阶段,还是需要更多像阿里云这样的公司一起参与进来,把整个生态能力构建起来。


👦🏻 Koji

看的一个比较主要的数字或者指标是有没有更多的人在用咱们的服务,而不是他在这个时候就为这个服务付了多少费用?


👦🏻 旭卿

钱并不是考虑的重点,目前肯定不是。


👦🏻 Koji

所以我想象你们可能也不需要帮阿里云去卖云服务,对吧?这个也不是一个指标?


👦🏻 旭卿

这方面没有明确的指标,我们以市场占有率优先。


👩🏻 Ronghui

那 AgentBay 在阿里云的 AI 战略里面是一个什么位置?


👦🏻 旭卿

AgentBay,其实在过去这两年我们看到大家都在卷基模,但 AI 怎样能够用好,Agent 是一个很重要的方向。所以在整个 AI 的大图里,我们是一个承上启下的作用。一是把模型能力通过 Agent Infra 对外开放,另外我们可能还会构建一些 Agent 开发框架,让更多用户在开发 Agent 的时候变得更加简单。


“让天下没有难做的 Agent” | 对谈阿里云无影总裁张献涛


👦🏻 Koji

然后我们上周有去参加周鸿祎新产品的发布会直播:纳米智能体蜂群。他讲到一个他们在做 Agent 时的选择,没有选择云端沙箱,而是选择本地。他提到一个很重要的点,就是觉得云端沙箱不安全。用户把自己的密码、个人身份认证信息放到云端,可能会出大事,所以他们选择本地。这是一个做安全的老炮非常坚定的路线选择。


所以想问二位,因为 AgentBay 的沙箱就是云端的,而你们也提到无论在阿里云还是之前的从业经历,都是把安全放在最高优先级的。可不可以讲一讲,如何让开发者们相信 AgentBay 的云端沙箱是安全的?


👦🏻 旭卿

本质上是云能不能提供一个更安全的环境。我大概从 2005 年开始做云计算相关研究,2014 年加入阿里云。最早对云的认知,也觉得是不是把数据放在自建数据中心会更安全。但加入阿里云后第二年,我的认知改变了。当时有自建数据中心的游戏厂商发布新游戏时,被对手用比特币买 5GB 流量就打垮了。但在阿里云上,抗 DDoS 能力非常强,所以很多游戏厂商都迁移到云上。公共云最大的不同是不断迭代。


我们知道只要是软件和系统都会有漏洞,但云厂商,比如我们有两三千人的安全团队实时守护数据安全。而一家企业自建数据中心,首先招不到这么优秀的安全工程师,其次成本极高。十几年的云计算经历让我深刻感受到,公共云提供的安全能力要远强于企业自建。


👦🏻 Koji

OK,我理解这里的不同在于,用云端沙箱和用本地沙箱,本地沙箱并不是本地云,而就是用户自己的电脑。


👦🏻 旭卿

是。首先从能力来看,如果使用本地沙箱,就像前几天 Manus 的创始人肖弘讲的,可以同时调 100 个子 agent 做 Wide Research。这种工作很难在本地电脑完成,只能靠云。从能力来看,本地运行越来越不现实。


另外在云端,我们在沙箱整体设计到 Agent Infra 层面的安全架构上,提供了端到端的数据保护能力。就像把钱放在自己家里还是放在银行,安全性是一样的。任何云厂商的数据安全都是生命线,都会投入大量人力和资源,确保数据不会泄露或被窃取。


👦🏻 Koji

那这里其实也是一个路线选择,有些人觉得放在本地还有一个好处是不用登录时提供新的用户名密码,因为浏览器本来就存着 cookie。你们现在要怎么说服?因为我相信这里面 agent 的开发者还是会有一些选择的,你们会怎么说服他们?


👦🏻 旭卿

就像你刚刚提到的,比如浏览器里边有很多 cookie,存了很多用户名和密码,其实在这种情况下你选择相信的是操作系统厂商和浏览器厂商。因为操作系统厂商和浏览器厂商肯定可以拿到这个数据。


但是为什么我们今天去相信微软或者谷歌不会动你的东西,为什么不能去选择相信一家云厂商呢?只不过你觉得数据存在本地更安全,但实际上本地电脑上可能有木马和病毒,更容易造成泄露。而当你把这些数据托管到第三方安全的保险库时,那个环境相对更单一、纯粹。


👦🏻 Koji

还有一个说法是云端沙箱不管跑什么代码,跑崩了是云端的事,本地是安全的。


👦🏻 旭卿

有个段子,以前我以为是段子,前几天才知道是真的:(有开发者)在本地沙箱里,模型主动去删除了一个目录,结果真的把这台电脑的目录删掉了。但这在云端沙箱里是没有问题的。


👦🏻 Koji

因为云端沙箱删了之后可以恢复,它是虚拟的,不会伤害到你本地的个人文件或隐私信息。那比如说我们刚才也说到了 Manus 上周发布的 Wide Research,也看到一个趋势:去年大家还觉得 token 的消耗是不是快到头了,英伟达的卡要卖不动了,确实也看到在降价。但今年 agent 出来之后发现不是,能力增强后 token 消耗是十倍甚至百倍地增加。你们有没有看到客户的高并发能力?最强的客户对你们的要求达到什么级别?


👦🏻 旭卿

国内一家做 agent 的厂商,他们在日常白天大概要做到 20 万的并发 session,这个数字还挺让我们惊讶的。但仔细分析后觉得合理,因为如果它是一个 App 或者应用程序,那用户数量决定了并发上限。


👦🏻 Koji

这 20 万是说 20 万用户一起发出 agent 任务,还是背后只有比如 1 万个 agent 任务,但会分别再发 20 个子任务?


👦🏻 旭卿

这是并发的子任务。


👦🏻 Koji

那确实会飞速增加。比如 Manus 的 Wide Research 案例就是一个主任务一下子开出 100 个、200 个子任务。


👦🏻 旭卿

我们相信这是未来通用场景发展的重要方向。


👦🏻 Koji

那感觉上这个也挺赚钱的。


👦🏻 旭卿

我们还没有考虑赚钱,而是怎样把产品功能更好地满足像 Manus 这种企业的需求。


👦🏻 Koji

所以现在没有一个非常明确的收费模式定论?


👦🏻 旭卿

我们看过这个领域,其实在构建产品时,目前阶段还是把能力做出来,满足这么多 agent 开发需求。但长期来看,它肯定还是一个商业行为。


👩🏻 Ronghui

未来这个领域可能出现什么新的商业模式吗?以前的收费方式和以后相比会有什么不一样?


👦🏻 安陈

当前我们作为一家云计算公司,我们现在还是以算力为主的售卖模式。比如你是一个 manager,需要开 100 个并发,我就收 100 个沙箱的钱。但未来可能会更走向应用层的收费。


举个例子,当客户有需求时,我们可能提供的不只是算力环境,还有配套的多模态模型推理成本、状态一致化管理成本等。这样一来,算力可能只是很小的成本,收费模式会更服务化。


👩🏻 Ronghui

你们现在感受到的客户需求曲线大概是什么样子?


👦🏻 安陈

是非常指数级的曲线。


👦🏻 旭卿

可以看到用户数量倍增,每天都有非常多新用户进来,并发很高。所以今天早上来之前我们还开了个会,讨论怎样做到全球资源的调度。


机会与选择


👦🏻 Koji

因为听「十字路口」的播客的这个朋友很多都是创业者或投资人。我觉得听到这里,你们讲到指数增长,所有人可能都想问一个问题:你们看到的除了通用的 agent 之外,有哪些垂直领域,不管 toB 的还是 toC 的,增长非常快?对这些领域的观察如何?因为这对大家来说就意味着投资机会或者创业机会。


👩🏻 Ronghui

对,“卖水”的公司肯定感受得非常明显。


👦🏻 旭卿

我们以前做云计算有一个说法,就是你可以很清晰地感受到整个业界各个行业的变化。


👦🏻 Koji

是的。


👦🏻 安陈

我们现在最主要服务的是通用 agent,还有 coding agent,这个大家作为消费者也能感受到。coding agent 的商业化模式相对成熟,范围也最广。第二类是通用 agent,自从 Manus 发布以后,所有厂商都在做改造,这是大家都能感受到的。


其次,基于通用 agent 框架,随着 Infra 逐渐成熟,我们看到很多传统应用也在做 agent 化改造,更多是在企业内部,消费者可能感受不到。


举个例子,比如一些电商企业,传统业务上有大量自动化工作,比如 IPA 的工作。运营人员需要做多平台比价、产品上架、主图设计等,以前大量重复性的工作流,现在都用 agent 去改造了。


包括我们现在接的很多大客户,不是集成 agent 提供对外服务,而是做内部 OA 自动化,或重复性工作的自动化。它体现在自动化运营、财务的重复性工作、内部客户服务等。这是潜移默化的,在大企业内部主要起到提效作用,而不是直接面向客户。


👦🏻 Koji

了解,面向客户的呢?


👦🏻 安陈

面向客户的,比如 HR agent(人力资源相关),金融领域也有一些做投资建议的,很多人在做。


👦🏻 Koji

对,这个非常多人做。因为离钱近,投资又容易闭环,金融全是数字。


👦🏻 安陈

对,我自己前段时间也做了一个。


👦🏻 Koji

哈哈哈,帮你炒股?


👦🏻 安陈

是的,做投资。大家都知道消息面很重要,所以你要广泛获取数据,让 AI 帮你分析,这个很多人在做。量化是离钱最近的地方,所以投资建议相关的 agent 很多。


另外还有民生医疗相关。美国现在医疗科技指数发展得很好,其实就是因为大模型能够给他们创造更多价值。


👦🏻 Koji

我们播客之前聊了很多创业者,但大厂的高管来上的比较少。我自己也有很多关于在大厂做业务、做管理的问题,希望今天能请教一下旭卿。


首先,无影事业部是做云电脑的,而且之前和二位交流时也了解到它增长非常快,也有不错的盈利。在这样的情况下,我理解去做转型需要决心,也有很大的机会成本。因为新的方向可能需要很长时间和很多耕耘才能看到回报,不像原来的业务那样,稍微扩展或全球化,就能很快看到增长,到年底汇报时更容易出业绩。


所以我想问,这样一个大的决定是怎么做的?


👦🏻 旭卿

我对 toB 业务的看法是,任何一个 toB 的业务都是长期的,不像卖手机,设计得好,受到欢迎,就能马上卖爆。toB 业务永远是长周期的投入,见效比较慢。


我记得很清楚,2016 年春节之前,马老师到阿里云讲过:投入到阿里做任何 toB 业务,投资周期都是 10 年。比如淘宝 2003、2004 年开始做,到 2014 年才上市;支付宝 2006 年开始做,到 2016 年才相对成熟;阿里云 2009 年开始做, 2019 年前后发展很迅猛。


从这件事可以看出,阿里在 toB 业务投资上,十年内基本不会要求一定要做到什么程度,或者赚多少钱,而是看在这个赛道里能否深耕,做出价值,尤其是长期价值。所以我在做任何事情时,都是以十年为单位。去年吴泳铭来了之后,把无影升级为一级事业部,把它当作非常重要的赛道。去年我们把无影和大模型当作阿里云智能集团新增的两个重要的战略性产品。


👦🏻 Koji

今年却把去年认为非常重要的云电脑赛道调整了?


👦🏻 旭卿

没有,这可能是大家的误解。无影这几年的增速还是非常高,一直保持三位数的增长。从业务层面来说,去年我们把它作为终端云计算里最重要的战略性产品推进。在这个过程中,大模型和智能体也在发生,我们就在看无影怎样和 agent、AI 融合,为未来长期提供能量加持。怎样让云电脑在大模型时代,成为 AI、agent、模型的好用电脑、手机,或者代码执行环境?我们基于这样的思考才开始布局。


真正下定决心做,还是在 ChatGPT 之后。思考清楚之后,把agentbay作为无影的兄弟关系,或者在产品和技术能力上的扩展。当然,说起来简单,做起来很难。要有资源,有人,有更多人力投到这件事上。过去半年我很纠结,一方面要保证这边的业务高速增长,另一方面要保证新赛道不踏空,能及时高效把事情做好。


👦🏻 Koji

对,这个挺不容易的。


👦🏻 旭卿

确实挺不容易。内部协调时,有些同学非常想做 AI,举手报名要加入;也有些同学觉得自己现在做得很好,还有重要工作,却被硬调过来。这里面有非常多的权衡和沟通。


管理与职场


👦🏻 Koji

因为我理解这里面其实有一个很难的点。AgentBay 是一个未来非常光明的机会,会不会有一些还在做无影的同事,感觉比较失落,没有被调到 AgentBay?


👦🏻 旭卿

我相信肯定是有的。但是总体上来讲,两边都是战略业务。只是说 AgentBay 可能更长期一些,而无影已经落地,并且保持着非常好的增长势头。我相信做两边都有成就感。


👦🏻 安陈

我来发表个暴论。哈哈哈,老板可能觉得不太方便讲,我稍微激进一点。我觉得其实无影做云电脑这个事情,一直以来我们过去的概念叫「端侧算力上云」。因为我们认为个人用户对算力的要求,传统 PC 是满足不了的。所以我们过去很多时候服务的是特种行业。


举个例子,这两年很多个人设计师用 SD、用 Flux,还有一些做仿真的同学,需要高弹性、高 GPU 资源的算力,他们会跑到云上用云电脑。还有一些安全类客户。但普罗大众其实没有感知。


今年不一样,今年电脑的概念要被重构了。很多人说今年是「超级个体」的一年,是「个人云计算」的一年。个人对算力的要求,不是传统拿个电脑就能完成的。比如我现在要跑 100 个环境,本地完全不可能。所以在这个时代,云电脑会真正实现端侧商业场景。我们认为普罗大众都会需要云电脑,这也是我们过去几年一直在做的事情。


AgentBay 同时在服务一些 toB 客户时,我们也服务于云电脑。我们现在在打造一台逻辑上的云电脑:


第一,它可以持久化,状态和数据都在上面;


第二,它高并发、高弹性,可以在大规模任务调度时镜像出 100 台云上并发运行;


第三,它可以随处漫游,是多端的。今天在手机上用,明天在 Pad 上用,后天在电脑上用,当然我们也有自己的硬件;


最后,它可以通过自然语言驱动。这是很多传统电脑做不到的。但 AgentBay 本来就是让 AI 使用一台电脑。


所以我们认为未来的电脑,第一是基于云的,第二是高并发的,第三是人人可用的——上到 80 岁老人,下到 7 岁小孩,都可以通过自然语言驱动电脑。这个时候,云电脑迎来了它的历史使命。所以我们传统业务的同学,依然有很多人在为业务升级改造而奋斗。


👦🏻 旭卿

对,本质上还是 agent 驱动电脑。无论我们在睡觉还是聊天,其实那台 agent 驱动的云电脑都在帮你做事。我们也提到「数字员工」的概念,希望一个员工有一个数字分身,在云上利用智能提升和云电脑的能力,并行完成很多复杂任务。前几天我们还提到「硅碳共生」。意思是云上的数字人(硅基)和真实的人之间,可以进行很多协调和互动。


👦🏻 Koji

我理解二位工作以来参加过很多展会、技术峰会。但听起来这次英伟达 GTC 给你们带来非常强烈的震撼,震撼到当天晚上就要连夜定未来几年的战略规划。在之前的职业生涯,有过这样的感受吗?


👦🏻 旭卿

2016、2017 年我去美国参加一个展会,具体名字忘了。那一年容器非常火,各家公司都在谈容器,也有很多容器相关创业公司。


但真正跑在物理机或虚拟机上的容器,性能都会受损。因为从文件系统层面它用了 OverlayFS,虽然方便,但性能下降;网络也是最原始的虚拟网络,用软件虚拟化,性能受限。这些都会严重影响容器的大规模应用。


回来后我们布局了一个新产品,就是后来叫“神龙服务器”的,2017 年正式发布,后来业界全都 follow,用我们的标准做 DPU、裸金属虚拟化。


👦🏻 Koji

我们之前和朋友说旭卿要来上「十字路口」,朋友说这是「弹性计算的神级大佬」。当时我想到另一个角度:神级大佬是不是要转型了?


因为我们最近发了一期「AI 时代的程序员站在十字路口」。美国刚有数据:今年计算机本科毕业生失业率 6.2%,艺术学生 3%,计算机的失业率是艺术的两倍。


所以当我看到「弹性计算的神级大佬」,一方面很开心迎来重量级嘉宾,但另一方面也会想:今天不仅应届生,很多人到了职场的中间阶段,突然面对 AI 这么大的冲击,会不会心慌?你会不会觉得,好不容易成了神级大佬,现在又来一个巨大的技术浪潮,会改变一切?你是怎么理解和面对的?


👦🏻 旭卿

回顾我十几二十年的职业生涯,我觉得自己还是比较善于思考、勤于思考的。


在来阿里之前,我在英特尔工作了 9 年(3 年实习,6 年正式)。从 2008 年到 2014 年。我应该是英特尔为数不多实习 3 年的学生,因为那时我还在读博士。那时全世界都在讨论云计算是什么、该往哪里发展。


我那个时候很幸运加入了英特尔系统虚拟化团队,主要做开源技术,比如后来云计算里用到的 KVM、Kubernetes 等项目。和我一起进来的另一个同学觉得这个方向太小众,不一定好找工作。当时研究虚拟化的,全球也就 VMware、微软、剑桥、斯坦福,技术人员加起来不超过 100 人。很多人觉得这是小众赛道。


但我进来之后有点痴迷。因为我本来就喜欢 CPU、操作系统这些底层技术,发现虚拟化能深入研究更多层,吸引力很大。虽然当时大家对云计算需要什么技术没概念,但我觉得这么高深的技术,一定会有重要的应用方向。


还没等我毕业,2006、2007 年 AWS 就初露锋芒了。那时全世界都到我们(英特尔)团队挖人。我们团队二十七、八个人,光去美国公司的就有十来个,都拿到美国 offer 直接迁过去了。因为当时熟悉云计算核心技术的,全球可能不超过 50 人,现在回想可能也不会超过 100 人。


👦🏻 Koji

听起来好像今天做大模型研究的一批人。


👦🏻 旭卿

对,在那个时间点上我觉得自己还是蛮幸运的,参与了云计算的浪潮。大概 2014 年我就去了阿里,我当时跟我的 leader 讲,我们怎样能够打造一个服务千万级客户的计算平台?那时大家都觉得是天方夜谭,但我们很坚定,如果某些技术架构不利于往千万级客户拓展,就要废掉,要重新来过。2014 年我们选对了,因为 2015 年移动互联网爆发,各种 APP 爆发之后,这些客户上来时我们产品已经准备好了。


到 2016 年,我们优化虚拟机性能,和物理机相比差三五个点,大家都觉得是业界极限,已经是标杆。但我当时就在想,牺牲一些 CPU 资源来提性能,这不是正确的方向。2016 年我每天都在思考这些问题。后来去参加展会时,我看到容器等新技术,看似性能无损,但底层还有很多损耗。那怎样在软件协同、芯片设计这些领域提升计算性能?所以我们在 2016 年布局了神龙,一举成为业界标杆性产品。


几乎所有云计算公司现在用的底层技术架构和神龙差别不大,因为我们发布后全世界都在 follow。再说 AI,这个领域我在 2015 年就开始布局所谓的 AI 基础设施。原因是当时阿里巴巴内部使用 NVIDIA K2 显卡,现在看来算力很差,但我们当时用来做机器学习,做了一个叫「拍立淘」的项目,就是淘宝拍图识别后推荐相似商品。


看到这个方向后,我觉得未来阿里有这个需求,外部公司也会有,所以 2015 年就开始布局 AI 基础设施。到 2016 年底产品已经做出来了,正好遇上深度学习为主的计算机视觉、语音等 AI 浪潮爆发。我们在这一波浪潮里服务了超过 80% 的中国科技公司 AI 算力需求,这就是因为我们在 2015 年就布局了产品。2017 年我们做出了神龙,同时也在布局面向未来大规模参数的 AI 基础设施,后来就有了 GPU 超级计算机群。


过去这些年我觉得总体上还是要为未来思考,尤其是做技术管理之后,你会发现需要为未来两三年可能发生的事情做一些预判和准备,而不是等浪潮来了再防御,那就晚了。


👦🏻 Koji

那现在你再看 agent,为未来做的这些事情里,有没有哪一件你担心可能会赌错?


👦🏻 旭卿

我不担心哪件事会赌错,而是担心在整体布局里有没有哪块没想到,这是我每天在思考的问题。


👦🏻 Koji

就是不知道自己不知道的。


👦🏻 旭卿

对,这个是最可怕的。


👩🏻 Ronghui

明白,现在感觉一个大势所趋是「什么都要会一点」。特别是一人公司,一个人可以干很多事。你会建议一个初阶工程师,或者工作几年的人,是增强自己在某个领域的能力,还是看到现在的趋势,什么都要会一点?


👦🏻 旭卿

我觉得在不同阶段不一样。如果是刚入职场的工程师,还是要聚焦某个领域,把它做深。知识面当然重要,但如果没有某个领域的深度积累,未来发展会受限。


不是说你知道多少,因为现在大模型什么都知道,问什么问题都能回答,但要做一些非常专业、需要深度钻研的技术,大模型还不擅长,尤其要结合人的思维。很多东西并不是大模型知道得宽泛就能解决的。


对工程师来说,我的建议是像我当年一样,把虚拟化技术研究深入,再结合所做业务,把价值发挥出来。这样从一个技术出发,带动周边技术融会贯通,产品才有竞争力,业务才会有更好增长。


👩🏻 Ronghui

对人的要求还是越来越高。


“让天下没有难做的 Agent” | 对谈阿里云无影总裁张献涛


👦🏻 Koji

我比较好奇,听起来旭卿不管实习时还是在 2015、2016 年,一开始看到云计算,后来看到弹性计算,到现在 Agent Infra 的增长,你的很多预判都被验证正确,甚至踩中科技世界最大的潮流。你有总结过自己为什么能做出这些成功预判吗?这背后需要哪些素质、习惯或思维方式?


👦🏻 旭卿

其实就是要从今天发生的事寻找未来的蛛丝马迹。比如 2016 年双十一总结会,我们当时的 CTO提出虚拟化技术只有 3% 到 5% 性能损失,但能不能做到没有损失?如果我没参加会议,或者忽略了这句话,觉得不可能,已经极致了,那可能就没有进步。但当时我觉得我是技术一号位,老板提了看似不可能的需求,那能不能换个思路,未来会不会发生?


后来参加展会,发现相关技术在快速发展。把这些线索放在一起,我当时就提出一个可能要发生的方向:软硬件协同设计、深度协同优化。在我们领域能不能通过软硬件协同带来革命性变革?于是我每天思考:要完成这个目标,哪些技术今天还不够?哪些用现有芯片和系统软件做不到?那是不是要去布局一颗芯片?布局某些系统技术研发?


当这些想清楚时,我提出要做神龙芯片,并说服管理层投入。那时阿里还没人做过芯片,但我觉得必须说服他们,因为如果机会出现而不投资,三五年后被验证了,公司可能会错过一个战略转型机会。所以我基本上都是从今天的事情和困难中寻找线索,看未来有没有可能解决。


👦🏻 Koji

我就想起我们都很喜欢的一篇文章,Paul Graham 写的《如何成就伟大事业》。这里面讲到,你要找到那种自己干起来毫不费力,但别人觉得很难的事情。那个事情很可能就是你做出别人做不到的事情的起点。你会有这种感觉吗?一路以来,在外人看来,你做的很多事情都很难,挑战巨大。但你自己做起来挺快乐,挺得心应手,好像找到了自己做起来不费力,但别人觉得很难的事情。


👦🏻 旭卿

恰恰相反,加入英特尔之后,在那个团队里,我看着周边的技术大牛们,开会时他们说的都是中文,每一句话我都听得懂字面意思,但不知道他们在讨论什么。我当时觉得需要用半年的时间听懂他们在做什么,在讨论什么。如果我听不懂就放弃了,那也不是我的个性。


👦🏻 Koji

你觉得自己的这种性格,或者学习的欲望和习惯,是怎么形成的?


👩🏻 Ronghui

从小就是好学生。


👦🏻 旭卿

我觉得这可能和个性有关,个性可能就是与生俱来的。你说它是要强也好,其他什么也好,总体上我喜欢看到困难的东西,而不是看到简单的事情。更喜欢有挑战性的东西。


👦🏻 Koji

明知山有虎,偏向虎山行。那你觉得今天做 Agent Infra 面对的挑战和过去相比,是一个什么级别的难度?


👦🏻 旭卿

做 Agent Infra 的布局,其实对我来讲要学习很多新的东西。我经常要找产品经理、找技术研发 leader 探讨各种事情,因为它和我以前学到、熟悉的东西不太一样。对我个人来讲,这是很有挑战性的。我需要搞懂,才能和他们平等交流,不然被忽悠了都不知道。


👩🏻 Ronghui

当你看到未来的方向,希望公司投入去发展,但它可能是未知的,你是怎么说服老板的?


👦🏻 旭卿

这个就很有意思了,比如我要做神龙,当时我们内部叫 MOC 卡(业界现在叫 DPU)。当时我进阿里才两年。但之前做的很多决策都被验证是对的,所以大家比较信服。到 2016 年突然跟老板说我要做芯片,这对任何老板都是挑战。当时我几乎每天早上等我的 leader 到公司,就去讲这个东西有多重要,大概讲了半个月,终于说服了他。后来也被验证是正确的。我们在 2017 年云栖大会发布时,全世界云计算公司都觉得还能这么干。以前大家觉得虚拟机的上限是物理机,现在虚拟机的上限没有上限。当这个理念被认可时,团队的成就感也来了。


👩🏻 Ronghui

在职场里,一线的人未必看不到未来,但挑战是如何说服老板投资源。


👦🏻 旭卿

所以我希望团队的同事遇到困难时,能够迎难而上,来说服我做这些投资。


👦🏻 Koji

刚才旭卿提到,你们今年拿了更多的 headcount 和资源。要不要在这里招聘一下?


👦🏻 旭卿

当然。我们非常希望更多认同这个方向的人加入,无论是刚毕业的大学生,还是在 AI 领域有经验的资深开发人员,一起来共筑未来 Agent Infra 平台,让更多企业在开发自己的 Agent 时更加高效。


👦🏻 Koji

好,那今天谢谢二位。谢谢辛苦了。


文章来自于微信公众号“十字路口Crossing”,作者是“十字路口”。



1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。

项目地址:https://github.com/mannaandpoem/OpenManus


3
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


4
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

5
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

6
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

7
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

8
Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。

项目地址:https://github.com/black-forest-labs/flux

在线使用:https://fluximg.com/zh

9
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

添加客服微信openai178,进AITNT官方交流群
IOS下载
安卓下载
微信群