三亿(集团)体育科技-中国科学家为人工智能打造“通用大脑” 发布时间:2026-03-12 22:39:51

  原标题:以同一架构让AI学会“接龙” 中国科学家为人工智能打造“通用年夜脑”

  光亮日报北京2月9日电(记者 晋浩天)你或许用过智能助手谈天,也见过人工智能(AI)天生精致图象,看过呆板人舞蹈……但你是否想过,驱动“谈天”“画画”“运动”的,毕竟是三套自力的体系,还有是统一个“智能年夜脑”的三种功效?日前,一项由北京智源人工智能研究院主导的主要科研冲破于国际学术期刊《天然》发表,为实现真正“看患上清、想患上通、做患上稳”的通用人工智能指了然新标的目的。这也是中国科研机构主导的年夜模子原创结果初次于《天然》正刊发表。

  论文重要作者、北京智源人工智能研究院理事长、北京年夜学传授黄铁军指出,这项研究的焦点思惟很是简便:以同一架构,让AI学会“接龙”。“不管是浏览文字、赏识图片,还有是不雅看视频、天生动作,于咱们新开发的智源Emu模子的‘眼’里,都被转换成一套‘数字积木’。模子的使命,就是像咱们玩歌词接龙游戏那样,始终猜测‘下一块积木’应该怎样呈现。”

  “这一思绪有迹可循。早于2018年,美国OpenAI公司便基在‘猜测下一词’的线路练习GPT模子,并在2022年推出ChatGPT,实现了语言年夜模子庞大冲破。”黄铁军团队推测,“猜测下一词”的架构也许不仅合用在语言,也能拓展最多种模态,将图象、文本及视频数据于统一架构下同一练习,从而开发出“一脑多能”的多模态年夜模子。

  团队成员先容,此前全世界规模内呈现的此类模子,年夜多采用“专用东西组合”方式:理解语言与图片、天生图片与视频,均由各自自力的模子或者东西各司其职。这种分工模式虽目的明确,但协同成本也随之增长。可否练习一个“通才”,采用同一架构处置惩罚各种数据、把握多种技术?研究团队的Emu3模子给出了必定谜底。

  Emu3就是如许一个“通才”型AI:当你给它一段文字描写时,它可以天生细节富厚、布局合理的图象;当你给它一张照片和相干问题时,它又能联合视觉信息与知识,举行精准的图象问答与理解;更进一步,它还有能天生持续的视频片断——只需给出一个开首,模子便能一帧一帧地输出后续画面,甚至还有能像连环画那样,为每一段画面配上文字描写。

  于进级版Emu3.5中,研究团队经由过程引入年夜范围永劫序视频练习,使模子从“猜测下一个词元”拓展到“猜测下一个状况”,最先进修世界随时间演化的统计纪律,为迈向更完备的“世界模子”摸索了可行路径。

  黄铁军暗示,这象征着,多模态模子分散的“理解”及“天生”两类能力,初次于统一种简朴而同一的建榜样式下被体系性买通。

  这把“同一建模”的钥匙,其潜力其实不止在多模态内容天生。它可以延长到物理世界,为呆板人操作提供可行的动作序列假想,还有可以解读脑旌旗灯号等各类繁杂数据。黄铁军先容,“猜测下一个”这一看似朴素的思惟,自己蕴含着构建通用智能的基因。《天然》编纂评价,智源Emu3这一结果对于构建可扩大、同一的多模态智能体系具备主要意义。

  黄铁军暗示,这项结果证明了天生式人工智能技能线路的普适性:人类已经经把握了让差别智能于统一系统内涌现的方式,正稳步走上通用人工智能连续演进的门路。

-三亿(集团)体育科技