来源:《科创板日报》
编辑宋子乔
当地时间5月9日,Meta宣布开源了一种可以将可以横跨6种不同模态的全新AI模型ImageBind,包括视觉、温度、文本、音频、深度信息、运动读数。目前,相关源代码已托管至GitHub。
何为横跨6种模态?
即以视觉为核心,ImageBind可做到6个模态之间任意的理解和转换。Meta展示了一些案例,如听到狗叫画出一只狗,同时给出对应的深度图和文字描述;如输入鸟的图像+海浪的声音,得到鸟在海边的图像。
金色晚报 | 9月19日晚间重要动态一览:12:00-21:00关键词:俄罗斯、土耳其、Mask Network
1.俄罗斯央行:将延迟对加密货币交易所付款以遏制冲动投资;
2.土耳其总统:土耳其正与加密货币“交战”;
3.观点:比特币与100年前福特提出的能源支持货币的概念相似;
4.Mask Network获得Filecoin开发公司Protocol Labs战略支持;
5.中关村:“科技向北”大会将发1万个数字人民币红包;
6.数据:NFT项目GalaxyEggs24小时交易量达3919ETH,排名第一;
7.Cardano创始人:Cardano新功能应被称为“可编程验证器”而非“智能合约”;
8.数据:以太坊网络当前已销毁322209.95枚ETH 价值11亿美元。[2021/9/19 23:36:59]
金色晚报 | 9月3日晚间重要动态一览:12:00-21:00关键词:瑞士、波卡、Filecoin、DAI、SushiSwap
1. 瑞士楚格州将允许公民使用比特币和以太坊交税,限额10万瑞士法郎。
2. 波卡将很快测试自动增加验证者数量新机制。
3.DAI供应量超过5亿枚,或与yearn.finance集成Maker金库有关。
4. Quantstamp:SushiSwap存在十个安全问题。
5. 俄罗斯财政部提议修改禁止加密交易的法律,三种情况将被排除。
6. 数据:yearn.finance的yETH vault已存入超过25万枚ETH。
7. 数据:Uniswap锁仓量突破20亿美元,位列榜首。
8. Maker发起新执行投票,旨在将ETH-A债务上限由4.2亿提高至5.4亿。
9. Zcash正式推出4.0.0版本以支持11月Canopy主网升级。[2020/9/3]
而此前的多模态AI模型一般只支持一个或两个模态,且不同模态之间难以进行互动和检索。ImageBind无疑具有突破性意义,Meta称,ImageBind是第一个能够同时处理6种感官数据的AI模型,也是第一个在没有明确监督的情况下学习一个单一嵌入空间的AI模型。
分析 | 金色盘面:BTC/USD 价格波幅较大 需要理性判断:金色盘面综合分析: BTC/USD 在过去24小时价格出现了大幅波动,市场上各种消息满天飞,但对于本轮行情最重要的消息要算是SEC对于ETF的审批消息了。就在刚刚,SEC的回复出来后,市场再次出现巨震,但这一次却是急涨。我们可以解读为利空出尽,但如果你仔细阅读SEC的回复,措辞耐人寻味,“此外,SEC强调,其对于这些比特币ETF的不赞成并不源自通过评估比特币或区块链技术是否更普遍,以及其作为创新或投资是否具有实用性或价值。”对于这段话是否可以理解为:我们不认为比特币缺乏交易价值,而是目前所有提交的ETF产品,尚未满足委员会的条件,一旦有人可以设计出符合要求的ETF产品,BTC-ETF的推出将不是问题。[2018/8/23]
ImageBind能做到这些,核心方法是把所有模态的数据放入统一的联合嵌入空间,无需使用每种不同模态组合对数据进行训练
先利用最近的大型视觉语言模型它将最近的大规模视觉语言模型的零样本能力扩展到新的模态,它们与图像的自然配对,如视频-音频和图像-深度数据,来学习一个联合嵌入空间。
而以图像/视频为中心训练好AI后,对于原始数据中没有直接联系的模态,比如语音和热量,ImageBind表现出涌现能力,把他们自发联系起来。
有行业观察者已经迫不及待地将ImageBind于元宇宙联系在一起。
正如Meta的研究团队所说,ImageBind为设计和体验身临其境的虚拟世界打开了大门。该团队还表示,未来还将加入触觉、语音、嗅觉和大脑功能磁共振信号,进一步探索多模态大模型的可能性,“人类可使用多种感官学习、了解世界,借助ImageBin,机器离人类又近了一步”。
值得注意的是,Meta还表示,ImageBind可以利用DINOv2强大的视觉功能进一步提高其能力。DINOv2是Meta开源的计算机视觉领域的预训练大模型,同样与Meta的元宇宙愿景密不可分,MetaCEO扎克伯格此前强调,DINOv2可以极大地加持元宇宙的建设,让用户在元宇宙中的沉浸体验更出色。
尽管ImageBind目前只是研究项目,没有直接的消费者用户或实际应用。但可以想象的是,随着ImageBind模型逐步完善,AI应用场景将进一步拓展,元宇宙建设也将更进一步。
比如当ImageBind融入虚拟现实设备,使用者能获得更沉浸式的体验,玩家进入游戏后不仅能感受游戏场景的温度,还能感知物理层面上运动。
国盛证券分析师刘高畅此前大胆预测,1-5年内,随着多模态的发展带来AI泛化能力提升,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。未来5-10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。