🎥 Midjourney计划推出“文本转视频”模型,扩展AI形象生成器到视频创作领域。
🚀 创新设计: DocLLM采用分离的空间注意机制,专注于边界框信息,解决文本和空间模态交汇处的复杂语义问题。
“O”:视频输出。2023年,我们看到了文字到视频合成的浪潮:WALT(谷歌)、EmuVideo(Meta)、Align Your Latents(英伟达)、Pika等等,数不胜数。然而,大多数生成的片段仍然很短。我将它们视为AI视频的“系统1”——“无意识”的局部像素运动。
新鲜AI产品点击了解:https://top.aibase.com/
3. 研究者认为,通过特定医学数据的培训和调整,有望提高LLM(大型语言模型)类聊天机器人的诊断准确性。