开云(中国)Kaiyun·官方网站 登录入口

新闻资讯    你的位置:开云(中国)Kaiyun·官方网站 登录入口 > 新闻资讯 >

开yun体育网以 Q-Former 架构对都了图像和文本-开云(中国)Kaiyun·官方网站 登录入口

发布日期:2026-04-06 02:26    点击次数:78

开yun体育网以 Q-Former 架构对都了图像和文本-开云(中国)Kaiyun·官方网站 登录入口

跟着 AI 竞争加重,破钞市集成为各大科技公司的必争之地。在文心一言、豆包、Kimi 等家具跋扈争夺 C 端用户确当下,奈何洞开 AI 破钞市集,成为阿里巴巴的要害课题。

2 月 6 日,多家媒体音问称,东说念主工智能科学家许主洪教训(Steven Hoi)隆重加入阿里巴巴,将出任集团副总裁。据里面东说念主士流露,许主洪教训将专注于 AI To C 业务的多模态基础模子及 Agents 连络基础权衡与利用照应决策,培植阿里巴巴 AI 利用 C 端家具在模子联结利用上的端到端闭环才调。

稍后,许主洪在 X 上阐明了这一音问,并提到"异日十年,为破钞市集开拓基础模子和 AI Agents 利用存在无数契机!"

这位工夫大牛的加入,意味着阿里在 AI To C 的又一尝试。

自旧年底阿里巴巴"新秀派"吴嘉执掌智能信息做事群以来,阿里的 AI C 端家具启动加快整合:先是将通义系列 C 端家具从阿里云剥离,随后又整合了天猫精灵所属的智能互联做事群;在家具层面,阿里聘用了用户量已达 2 亿的夸克当作主攻观念,将其重新定位为 "AI 万能助手 ",并启动与天猫精灵张开联动。据悉,双正大在筹备包括 AI 眼镜在内的 AI 新家具。

如今工夫东说念主才的引入仅仅一个启动,插足 2025 年,阿里 AI 急需一所在向破钞市集的反击。

从 Salesforce 到阿里,专注多模态预考试

当作一位深耕 AI 鸿沟 20 余年的权衡者,许主洪的学术经验颇为丰富。2002 年获清华大学经营机系学士学位后,他在香港华文大学完成了硕士和博士学位。在学术界,他于 2019 年当选 IEEE Fellow(电气和电子工程师协会会士),入选斯坦福 " 群众前 1%AI 科学家 " 榜单。

许主洪的权衡鸿沟袒护机器学习基础表面及多个利用观念,包括多媒体信息检索、经营机视觉、大数据分析等。其中,他在多模态预考试方面的职责获取了最多善良,相称是 BLIP 模子系列的权衡后果,发布在了多个开源社区。

BLIP 系列有多篇论文,权衡聚焦于视觉 - 谈话多模态预考试(Vision-Language Pre-training, VLP),旨在通过长入模子架构和高效数据增强政策,结束视觉谈话意会与生成任务的协同优化,不错利用于图像 - 文本检索、图像标题生成、视觉问答、视觉推理和视觉对话等多种任务。

在 Github 社区,BLIP 获取了 5000 颗星,而 BLIP2 则是径直点爆了当年的图文模子圈,获取业界高度评价,并被觉得是多模态启发性职责,对开源社区作念出了显赫孝敬。此外,据许主洪在 X 称,BLIP-2 还被名次为 the 5 top AI Research paper of 2023,仅次于 GPT-4。

《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models》亦然许主洪参与的援用量最高的职责,具体来看,通过翻新的 " 冻结模子 + 轻量桥接 " 政策,以 Q-Former 架构对都了图像和文本,在保捏高性能的同期大幅裁汰了经营老本。

这些权衡大多完成于他在 Salesforce 期间。在 Salesforce,许主洪参与了多个 AI 权衡情势,并尝试将权衡后果转机为利用家具。

在离开 Salesforce,加入阿里巴巴之前,许主洪还有一段创业经历,于 2023 年创立了一家多模态生成式 AI 初创公司 HyperGAI 并担任 CEO,发布了三款开源多模态大模子。其中,开源多模态模子 Hyper-Pretrained Transformers (HPT) 1.5 Edge 梗概结束文本和视觉输入的多模态意会,专为旯旮和迁徙开拓量身定制,参数小于 5B。

不外,在竞争强烈的 AI 创业市麇集,HyperGAI 的家具未能获取市集反响,其开源模子在 Huggingface 平台上少有东说念主善良。

从总体来看,多模态权衡和横跨学术、产业、创业,是许主洪两个要道词。

重组、和会、翻新,阿里 AI to C 需要新牌

在多模态 AI 成为工夫竞争焦点确当下,咱们不难意会:在发力 To C 的要道时刻,阿里恰恰需要这么一位既能防碍算法鸿沟、又能激动家具翻新的科学家。

在往日一段时期里,阿里 AI To C 家具中,除夸克除外,其他 AI 家具包括通义 APP 自己在 C 端的施展并不卓越。也恰是因此,咫尺的阿里正在通过整合通义、夸克等家具力量,配以顶尖东说念主才加捏,打造一个更具竞争力的 AI To C 重生态。

率先是在模子与利用的关系上,阿里过程一年多的探索后迟缓明确了 " 分而治之 " 的政策,让基础模子研发和破钞级利用各自安适发展,以符合不同的翻新节律。

2024 年底,阿里将原属阿里云的"通义"利用剥离出来,并入智能信息做事群由吴嘉统管,而此前通义千问更多是举座打包的想路,模子和利用绑缚发展。但在执行中发现,大模子研发和破钞级利用分属不同赛说念,各自濒临的挑战和节律都不尽疏通,为两边松捆后通义千问团队不错专注工夫防碍,而 C 端家具团队则能更天真地进行调理。

而后更多的 AI to C 整合启动了。相称是天猫精灵所属的智能互联做事群并入之后,加上原有的夸克、书旗演义、UC 浏览器等业务,一条从搜索到推行,从文本到语音交互,从软件到硬件的翻新链条正在酿成。在这条链条上,多模态工夫成为一语气各个场景的要道。

许主洪的加入,也恰恰印证了阿里的这一工夫布局。当作 BLIP 系列的参与者,他在多模态预考试和服从优化方面的蕴蓄恰是阿里所需要的。从夸克的图文意会到天猫精灵的视觉交互,再到异日可能推出的 AI 眼镜,多模态交互将成为阿里 AI 家具的标配。

不外,在 AI 破钞市集,先进工夫仅仅起原,往日一年的市集竞争还是讲解,确实的难点在于找准用户和场景。

对 All in AI 的阿里巴巴而言,这既是机遇亦然挑战。一方面,阿里领有渊博的用户基础、丰富的利用场景和苍劲的工夫储备;但另一方面,在 To C 战场上,不管是百度的文心一言、百度文库,照旧字节的豆包,都已酿成了一定的用户心智。

当今的阿里不仅需要清新血液,也需要一场胜利开yun体育网,通过 AI 重新界说我方在破钞互联网时期的中枢竞争力。



上一篇:体育游戏app平台在市集外征战差价结算的机制-开云(中国)Kaiyun·官方网站 登录入口

下一篇:体育游戏app平台建筑了符合盘问单体高维量子系统的可扩张光学体系-开云(中国)Kaiyun·官方网站 登录入口

Powered by 开云(中国)Kaiyun·官方网站 登录入口 @2013-2022 RSS地图 HTML地图

top