✈️ Gate 广场【Gate Travel 旅行分享官召集令】
广场家人们注意啦!Gate Travel 已经上线~ 机票+酒店一站式预订,还能用加密货币直接付款 💸
所以说,你的钱包和你的旅行梦终于可以谈恋爱了 😎 💕
现在广场开启 #GateTravel旅行分享官# 活动,邀你来秀旅行灵感 & 使用体验!💡
🌴 参与方式:
1️⃣ 在【广场】带话题 #Gate Travel 旅行分享官# 发帖
2️⃣ 你可以:
你最想用 Gate Travel 去的目的地(私藏小岛 or 网红打卡点都行)
讲讲用 Gate Travel 订票/订酒店的奇妙体验
放放省钱/使用攻略,让大家省到笑出声
或者直接写一篇轻松的 Gate Travel 旅行小故事
📦 奖励安排,走起:
🏆 优秀分享官(1 名):Gate 旅行露营套装
🎖️ 热门分享官(3 名):Gate 旅行速干套装
🎉 幸运参与奖(5 名):Gate 国际米兰旅行小夜灯
*海外用户 旅行露营套装 以 $100 合约体验券,旅行速干套装 以 $50 合约体验券折算,国际米兰旅行小夜灯以 $30合约体验券折算。
📌 优质内容将有机会得到官方账号转发翻牌提升社区曝光!
📌 帖文将综合互动量、内容丰富度和创意评分。禁止小号刷贴,原创分享更容易脱颖而出!
🕒 8月20 18:00 - 8月28日 24:00 UTC+
剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型
来源:新智元
当下的大型语言模型,如ChatGPT只能接收文本作为输入,即便升级版的GPT-4也只是增加了图像输入的功能,无法处理其他模态的数据,如视频、音频等。
最近,来自剑桥大学、奈良先端科学技术大学院大学和腾讯的研究人员共同提出并开源了通用指令遵循模型PandaGPT模型,也是首个实现了跨六种模态(图像/视频、文本、音频、深度、thermal和IMU)执行指令遵循数据的基础模型。
代码链接:
在没有明确多模态监督的情况下,PandaGPT就展现出了强大的多模态能力,可以执行复杂的理解/推理任务,如详细的图像描述生成、编写视频启发的故事、回答有关音频的问题,或是多轮对话等。
示例
基于图片的问答:
多模态PandaGPT
和困在计算机内的AI模型相比,人类具有多种感官来了解世界,可以看一幅画,可以听到自然界的各种声音;机器如果也能输入多模态的信息,就可以更全面地解决各种问题。
目前多模态的研究大多数局限于单模态,或是文本与其他模态的组合,缺乏感知和理解多模态输入的整体性和互补性。
为了让PandaGPT具有多模态输入能力,研究人员结合了ImageBind的多模态编码器和大型语言模型Vicuna,二者在视觉和音频基础的指令遵循任务中都取得了非常强大的性能。
同时,为了使二个模型的特征空间一致,研究人员使用开源的16万个图像-语言指令遵循数据来训练PandaGPT,其中每个训练实例包括一个图像和一组多轮对话数据,对话中包含每轮人类的指令和系统的回复。
为了减少可训练参数的数量,研究人员只训练用来连接Vicuna的ImageBind表征,以及Vicuna的注意力模块上的额外LoRA权重。
值得注意的是,当前版本的PandaGPT只用对齐的图像-文本数据进行训练,但通过利用冻结的ImageBind编码器中继承的六种模态(图像/视频、文本、音频、深度、thermal和IMU)的绑定属性,PandaGPT展示出了涌现,即零样本跨模态的能力。
限制
尽管PandaGPT在处理多模态及模态组合方面有惊人的能力,但还有几种方法可以用来进一步改进PandaGPT:
PandaGPT的训练过程可以通过引入更多对齐数据来丰富,比如其他与文本匹配的模态(音频-文本)
研究人员对文本以外的模态内容只使用一个嵌入向量来表征,还需要对细粒度的特征提取畸形更多研究,如跨模态的注意力机制可能会对性能提升有好处
PandaGPT目前只是将多模态信息作为输入,未来可能会在生成端引入更丰富的多媒体内容,比如在音频中生成图像和文字回复。
还需要有新的基准来评估多模态输入的组合能力
PandaGPT也可以表现出现有语言模型的几个常见缺陷,包括幻觉、毒性和刻板印象。
研究人员也指出,PandaGPT目前还只是一个研究原型,不能直接用于现实世界的应用。
参考资料: