谷歌 DeepMind 的三名研究员 Alexander Kolesnikov、Xiaohua Zhai、Lucas Beyer 转投 OpenAI,合作打造 OpenAI 苏黎世办公室,三人将致力于开发多模态 AI,即能够处理图像到音频等多种媒介的人工智能模型。
三人均是大名鼎鼎的 ViT 论文(An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)作者。
其他研究还包括:
big_vision:
网页链接WebLI:
网页链接SigLIP:
网页链接PaliGemma:
网页链接