第一财经「新皮层」独家获悉,MiniMax即将推出文本推理模型,并将开源。半个月前,MiniMax刚刚发布和开源了视觉推理模型Orsta(One RL to See Them All)。
MiniMax今年3月做出产品线调整,将旗下现有产品「海螺AI」更名为「MiniMax」,与公司同名,聚焦文本理解和生成;另外重新推出一个叫「海螺AI」的产品,主打视频生成,与快手的可灵AI和字节跳动的即梦AI竞争。
海螺AI原本是个ChatBot,今年3月后变为视频生成类AI。
「新皮层」获得消息称,接下来MiniMax还将推出独立的音频生成应用,品牌名未知。加上原有的社区型产品星野(国内)和Talkie(海外),MiniMax将运营至少5款核心产品。
MiniMax创立以来的核心战略之一就是产品驱动
MiniMax早期核心产品主要是Glow、星野、Talkie等社区型产品,对于为什么选择做这类产品而不是ChatBot,MiniMax创始人闫俊杰在去年9月5日的蚂蚁外滩大会上给出的说法是「Chat产品本身有很好的容错性。这使得这类产品可以跟现有模型很好地结合,不会暴露后者的错误率过高问题,而内容社区则难以容忍这一点」,对于社区型产品,用户需要用AI创造出足够好的内容,才能引来其他用户消费。言下之意,更难被满足的需求可以促进模型和产品的进化。
基于产品驱动的理念,MiniMax在模型端获得的重要成果之一是Linear Attention(线性注意力),相较于Transformer的自注意力机制,这个技术可以大幅降低模型的计算时间,并提升模型可以处理的上下文长度。去年8月底发布完视频生成模型abab-video-1后,闫俊杰接受包括「新皮层」在内的媒体采访时,解释了星野产品如何驱动了线性注意力的价值发现,「(你)肯定不希望星野的NPC只能记住最近8000字的内容,这对用户体验肯定损伤很大,如果能scale(扩展)到8万字、80万字、800万字……肯定能做出更不一样的产品」。
闫俊杰当时称,MiniMax花了不少时间探索新的注意力机制,以解决像星野这样的社区型产品中AI记忆力不够、用户体验不佳的问题。而由此探索出的Linear Attention机制又被复用到了去年8月推出的视频生成模型中——相较于文本,视频生成消耗的token量更大、计算更慢。
在OpenAI开启、DeepSeek放大的推理模型浪潮中,MiniMax暂时落后于同行。DeepSeek发布推理模型R1的同一天,1月20日,月之暗面也发布了推理模型K1.5,而且是多模态的,能够对招股书做图文分析。只不过DeepSeek开源了,K1.5没有开源。其他大模型公司包括腾讯、字节跳动、阿里巴巴、智谱和百度则都已在今年3月至5月期间推出了各自的推理模型。
MiniMax对产品架构的调整发生在DeepSeek爆火之后。除了将「海螺AI」更名为「MiniMax」,另立「海螺AI」为视频生成品牌,并准备推出针对音频生成的新产品品牌,「新皮层」获得的消息称,这些产品线都有各自的技术线,分别对应文本、视频、语音三类模型的开发。
在这次产品架构调整之前,虽然MiniMax去年8月就已推出视频生成模型abab-video-1,但并没有相对应的独立应用。新的「海螺AI」品牌相当于承接了MiniMax在视频生成方向上的抓手。之后打算推出的音频生成产品将在音频生成模型方向上扮演类似角色。早在2023年11月,MiniMax也已经发布过一个语音大模型abab-speech-01,但没有相对应的独立应用。
闫俊杰其实相当早就看到了推理模型到来的可能性。同样在去年8月发布首个视频生成模型的发布会后的采访中,闫俊杰称,GPT-4或者GPT-4o都不是真正重要的行业变革,因为这些模型仍然拥有两位数的错误率,这正是基于GPT-4推出的GPT Store跑不通的根本原因。而真正的变革是「在什么时间点有一个模型可以把错误率降低到个位数,这会是一个非常本质的变化」。
「什么时间点会出来一个错误率能够降低10倍的模型?现在显然是没有的,至少没有公开。」他去年8月最后一天说。12天后,去年9月12日晚间,OpenAI发布了o1模型,开启了推理模型时代。
推理模型带来了Agent机会。
在发布文本推理模型和筹备音频应用之外,MiniMax已经开始在同名应用中测试Agent功能。目前,它可以帮用户做PPT、制作绘本、进行DeepResearch(深度研究),还可以开发小游戏、制作网页,用户只需要用自然语言与之交互。与Manus相似,MiniMax看起来想让这个Agent足够通用。
MiniMax Agent在交互窗口下方提供范例,范例部分来自官方,部分来自用户。
该Agent正在测试阶段。「新皮层」获得的消息称,该Agent目前主要面向海外用户。
文章来自微信公众号 “ 新皮层NewNewThing ”,作者 吴洋洋
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/