各位老铁们好,相信很多人对低调发展八个月,李开复与大模特团队首秀都不是特别的了解,因此呢,今天就来为大家分享下关于低调发展八个月,李开复与大模特团队首秀以及的问题知识,还望可以帮助大家,解决大家的一些困惑,下面一起来看看吧!
李开复称该公司的首次公开亮相“Yi”令人惊叹,称Yi-34B是“全球最强的开源模型”,在通用能力、知识推理、阅读理解等多项指标上击败全球玩家。也有人说,01五行在数据收集、算法研究、团队配置等方面都是“全球第一梯队”,对标OpenAI、谷歌等一线公司。
灵异舞舞这一出现,也露出了组成其队伍的神秘面纱的一角。会上,灵一湾两位技术副总裁Pretrain负责人黄文浩、AI Infra负责人戴宗宏也出席了会议。据灵异物物介绍,团队核心成员拥有谷歌、微软、阿里巴巴、百度、字节跳动、腾讯等国内外顶尖公司背景,并持续在全球招募最优秀的中国AI精英。
李开复本人也对零千事的团队构成给予了最好的认可。作为第一代在CMU留学、经历过微软PC时代和谷歌移动互联网时代的中国AI科学家,李开复对AI Native应用异常敏感。不久前,在极客公园举办的西溪论坛上,李开复对“AI Native的应用是什么”的定义在行业圈迅速传播并获得一致认可。
他提出,AI原生应用可能有这样的特点:如果把大模型去掉,应用就会崩溃。它是一个完全依赖大模型能力的应用程序。从这个角度来看,微软Copilot或许还算不上一款全能的大机型产品,因为没有Copilot,办公软件还是Office,AI只是锦上添花。
01 Yi-34B:200K 上下文窗口、登顶 Hugging Face
“易”系列大型号的名称来源于“一”的拼音,“易”中的“Y”倒过来,类似于汉字“人”与AI中的“i”的组合,代表Human+AI,强调以人为本的精神,为人类创造价值。
Yi-34B拥有全球最长的200K上下文窗口,可处理40万汉字的超长文本输入。相比之下,OpenAI的GPT-4上下文窗口为32K,文本处理量约为25,000字。 Anthropic 的Claude2-100K 上下文窗口大小也只有100K。
在语言模型中,上下文窗口是大型模型综合计算能力的黄金指标之一,对于理解和生成与特定上下文相关的文本至关重要。在文档摘要、文档问答等下游任务中,长上下文的能力也发挥着关键作用,并且有着广泛的应用场景,比如在法律、金融、媒体、档案等很多垂直场景中。如果使用得更准确、更连贯,速度更快的长文本窗口功能可以更有效地提高生产力。
然而,受限于计算复杂度和数据完整性等问题,上下文窗口大小扩展从计算、内存和通信等角度提出了各种挑战。因此,大多数已发布的大型语言模型仅支持几千个标记的上下文长度。为了解决这个限制,零一Everything技术团队进行了一系列的优化,包括:计算通信重叠、序列并行、通信压缩等。通过这些能力增强,在大型场景下的能力提升了近百倍。比例模型训练已经实现。
零一旅行车此次发布的Yi-34B的200K上下文窗口是直接开源的。它不仅可以提供更丰富的语义信息,理解1000页以上的PDF文档,还可以赋能很多依赖矢量数据库构建外部知识库的场景。使用上下文窗口代替; Yi-34B 的开源特性也为想要在更长上下文窗口内进行微调的开发人员提供了更多可能性。
根据Hugging Face英文开源社区平台和C-Eval中文评测的最新榜单,Yi-34B预训练模型获得多项SOTA国际最佳性能指标认可,在部分关键指标上优于Meta的Llama 2。领先的开源模型是目前国内唯一成功登顶Hugging Face全球开源模型排行榜的模型。
其中34B是性能与成本的“黄金比例”尺寸,对开发者比较友好。原因在于,与目前开源社区主流尺寸7B、13B相比,34B拥有更多的知识容量+多模态能力;已达到“出现”门槛;可以实现高效率的单卡推理;满足准确性要求并且培训成本低廉。
同时,李开复宣布零义乌已启动下一个千亿参数模型的训练,并将很快推出一系列量化版本的义乌,对话模型、数学模型、代码模型、多模态模型等等,速度很快。
在李开复看来,就大型模型而言,模型的参数规模仍然是最重要的,需要继续扩大模型规模,同时关注数据质量和训练稳定性等问题;同时,Infra结构对于保证可靠性也非常重要。扩展到更大规模,解决大规模并行训练的系统瓶颈;此外,多模态也是一个重点发展方向,需要妥善处理不同模态的融合、编码含义等问题。
零千AI基础设施负责人戴宗宏透露:2000亿模型的预实验已经完成,正在逐步训练;万亿模型的相关研究工作已经同步进行,我们希望整个训练过程是一个接着一个。地面不断滚动。
02 AI Infra 是护城河
要训练一个优秀的大模型,最重要的是要有高质量的数据。
零一事强调其对大型模型的数据过滤能力,使其能够获得更多高质量的数据。首先利用AI进行筛选,然后进行人工评估和持续迭代。其数据过滤率约为同行的十分之一。其次,它的英文语料库比中文语料库高,因为英文语料库的质量更高。
此外,团队还花费了大量时间研究Scaling Law(规模法则,指的是在某些系统中,随着系统规模的增大,某些性能指标呈现出特定的变化趋势)。也就是说,团队首先对小型模型进行数据匹配和评估,然后外推到百亿、千亿甚至万亿规模的模型。
令易万物自主研发了一套“大型训练实验平台”。数据配比、超参搜索、模型结构实验都可以在小规模实验平台上进行。 34B模型各节点的预测误差是可以控制的。 0.5%以内。
这样可以提高培训效率,降低培训成本。 “整个训练是一个动态的过程,中间的每一步都可以通过数学来预测,不需要做大量的实验。”零千物联网技术副总裁兼预训练(Pre-training)负责人黄文浩表示。
如果说训练大模型就像爬山,那么AI Infra(AI基础设施技术)定义了大模型训练算法和模型的能力边界。 —— 用爬山来比喻,如果训练一个大模型就像爬山,那么Infra 就是提供备份的基础。
具体来说,AI Infra主要为大型模型训练和部署提供各种底层技术设施,包括处理器、操作系统、存储系统、网络基础设施、云计算平台等。
01万石解释为何选择34B尺度,图片来源| 01万石
01万源团队表示,AI Infra支撑其业界领先的训练效果。通过AI Infra,Yi-34B模型的训练成本经测量下降了40%。 —— 如果其他公司需要2000 个GPU 来训练模型,那么零一世界可能只需要1200 个GPU。 —— 进一步模拟,训练成本可能会增加到数千亿。下降了50%之多。
目前,其AI基础设施能力可实现故障预测准确率90%以上、故障早期发现率99.9%、无需人工干预的故障自愈率95%以上。这很好地保证了模型的训练过程。
AI Infra 能力的背后是人。李开复曾经说过,做大规模模型Infra的人比做算法的人更稀缺。零一万树声称拥有业内罕见的AI基础设施技术团队。
零千AI基础设施负责人戴宗宏是前华为云AI CTO兼技术创新部部长,前阿里巴巴达摩院AI基础设施总监。他带领的Infra团队核心成员是来自阿里巴巴、华为、微软、商汤科技等公司的技术专家。他们曾参与支持4个千亿参数的大型模型的大规模训练,管理数万张GPU卡,拥有强大的端到端全栈AI技术能力。
在完成Yi-34B预训练的同时,李开复还宣布很快将开始训练下一个千亿参数模型。 “零一万的数据处理管道、算法研究、实验平台、GPU资源和AI基础设施都已经准备好了,我们的动作会越来越快。”他说。
03 下一站,打造 Super App(超级应用)
这几个月,零千事的进展并不顺利:
3个月后,团队写出了第一行代码; 7个月后,01无锡推出最新开源产品——Yi-34B和Yi-6B;据悉,01旺思已完成新一轮融资,由阿里云领投。目前,零千物估值超过10亿美元。
李开复认为,超级APP将是新时代最大的商机,而大型模式的存在将是其中的“必备”。甚至未来的内容也应该主要由AI创作,并由人来帮助,这就是“AI优先”。
考虑到AI 1.0时代一些无法产生收入的公司被淘汰的教训,李开复表示,在AI 2.0时代,产生收入非常重要,“继续创造收入”产生高质量的收入。”零一事将遵循APP,未来的超级APP应基于上述原则进行推广和发展。
他强调,“人工智能2.0是历史上最大的技术革命,它带来的改变世界的最大机遇一定是平台和技术。就像PC时代的微软Office,移动互联网时代的微信、抖音、美团一样,业务爆发性增长概率最高的一定是ToC应用。”
他认为,如果说PC时代给了开发者和用户机会的话,那就是每个桌面上的电脑;移动互联网可能带来基于位置的、个性化的、随时随地的计算; AI 2.0时代带来的巨大机遇就是为每一个应用连接并赋能一个超级大脑。
基于以上判断,灵异屋选择发展AI 2.0时代最好的大模型库和行业模型,同时寻找最大的商机————这个消费级超级应用。
对于制作超级APP的方法论,李开复认为一定是一个非常简单的开始,用精益创业的方法不断迭代。就像抖音和微信的第一个版本一样,它们并不是超级应用程序。相反,他们捕捉用户需求,利用新平台的技术精髓,制作出一个人人都喜欢的简单应用程序。然后他们根据用户反馈不断调整,最终迭代成超级应用。应用。
零千物的路径选择也是AI 2.0创业浪潮的产业缩影。开源和闭源并行进行,开发基础模型和超级应用,甚至同时探索ToB和ToC的商业化。
用户评论
哇!八个月就弄出一个大模型的团队?这速度也太快了吧! 期待看到李开复大神和他们的团队带来什么革命性的技术!
有10位网友表示赞同!
低调发育确实不是没有道理呀,看看现在科技圈里火速冲出来的项目,很多最终还是烟消云散。稳定地积累实力才是长久之道啊。
有20位网友表示赞同!
终于首秀了!一直关注李开复老师的作品, 他的科研之路真的让人 admire ,这次大模型一定也会惊艳所有人吧?
有17位网友表示赞同!
感觉很多人对这个团队都充满了期待,毕竟是大神的作品嘛!但也要注意现实的残酷,市场竞争相当激烈,希望他们能做好充分准备。
有12位网友表示赞同!
八个月做出大模型的速度确实很厉害。 不过,真正考验团队实力的是未来的发展和应用。 希望他们的技术能够真正造福社会!
有11位网友表示赞同!
以前就听说李开复在做大模型的事情,现在终于揭开了面纱!真期待这个“隐形”战队能带来什么样的惊喜?希望他们能突破现有技术的局限,创造更大的价值。
有14位网友表示赞同!
低调发育确实是个不错的策略,可以避免前期舆论压力和市场期待带来的不必要的负担。但同时也要把握住时机,在合适的时机推出产品才能更好地获得人们的认可!
有15位网友表示赞同!
大模型这个赛道现在竞争异常激烈,新团队出炉的速度很快,希望李开复教授们能拿出真正具有创新力的技术来脱颖而出!
有16位网友表示赞同!
李开复老师真的太厉害了,他的科研领域一直走在前沿。这次的大模型团队也是非常期待的,相信他们一定能够带来一些 groundbreaking 的成果!
有14位网友表示赞同!
其实我觉得大模型的赛道现在已经饱和了,新的团队很难在一个短时间内做出突破性的改变。 而且技术水平不是一蹴而就的,更需要时间的积累和磨练。
有14位网友表示赞同!
李开复老师确实是一个很有远见的科学家,他之前在人工智能领域做出的贡献大家都有目共睹。这次大模型团队也预示着他的进一步探索!
有5位网友表示赞同!
这个“隐形”战队终于出马了?希望能看到他们和大公司之间的合作和竞争, 促进大模型技术的更快发展!
有9位网友表示赞同!
科技发展应该注重实际应用, 希望李开复老师的新团队能够将技术成果转化为现实价值,造福更多的人类!
有12位网友表示赞同!
八个月就成立一支大模型团队?这速度确实很令人佩服。不过,真正考验团队实力的是项目的最终效果和市场的影响力!
有10位网友表示赞同!
之前一直想了解李开复老师的新项目是什么,现在终于知道了! 大期待他们的新技术能够在实际应用中取得成功!
有16位网友表示赞同!
低调发育的策略确实很明智,可以避免一些不必要的舆论压力。但同时也要把握住时机,在合适的时机推出产品才能更好地获得市场的认可!
有12位网友表示赞同!
其实,大模型的发展已经走过了初期阶段,未来的发展方向更加明确了。 希望能看到李开复老师的团队能够在这方面做出新的突破!
有16位网友表示赞同!
期待他们可以带来一些真正颠覆式的创新!科技发展的最终目标是让生活更好,希望这个新团队能够为我们创造一个更美好未来!
有6位网友表示赞同!