AI Weekly 012

AI Weekly 012

🆕 更新了什么?

产品更新:


  • 节点以及 Group 节点支持折叠。
  • Group 节点支持拖拽。
  • 优化了连线体验,连线与节点端点增加自动吸附能力。
  • 支持设置启动方式,可以手动控制浮点精度和 VAE 精度。如果出现出图模糊或者黑图的情况,可以尝试将浮点精度或 VAE 精度设置成 FP32。
  • 修复了一些已知的 bug:
    • 修复了 Win 系统通知的适配问题。
    • 修复了 Terminal 在 Win 系统下部分功能无法使用的问题。
    • 导入特殊 Workflow 报错问题。

下载链接:Comflowyspace (opens in a new tab)

🤩 每周 AI 精选

🏗️ 值得尝试的插件

Marigold 是一种先进的单目深度估计扩散模型,它结合了现代生成图像模型的强大能力和特定的微调协议,以精确地从单张图片中推断出场景的三维深度。这款模型利用合成数据进行训练,增强了对多样化场景的适应力,并支持零样本学习,使其能够在缺乏先验数据的情况下依然提供卓越的深度估计效果。


Comfy plugin 是一个为 ComfyUI 设计的简单插件,它允许用户在 ComfyUI 环境中创建一个图像网格 (或称为 X/Y Plot)。这个插件的主要特点是提供了一个用户友好的界面和更多的设置选项,使得用户能够更加灵活和高效地展示和排列图像。


ComfyUI-Catcat 是一个扩展,可将等待时间转变为有趣的奇观,通过随机的猫 GIF 为 ComfyUI 渲染注入欢乐,使每个加载时刻都成为意想不到的乐趣。


📄 值得关注的论文 & 技术

MindEye2 是一项突破性的神经成像技术,能够在仅 1 小时的功能磁共振成像 (fMRI) 数据基础上,重建人脑中的视觉图像。通过预训练模型和跨受试者的数据共享,MindEye2 不仅实现了大脑活动到图像的转换,还提高了图像重建质量。目前其代码已在 GitHub 上公开,它的开发为神经科学、AI 和医学成像带来了新的可能。


Glyph-ByT5 是一个文本编码器,它通过精细调整 ByT5 编码器并结合精选数据集,强化了对字符的识别和字形的对齐,显著提高了文本渲染的准确度。与 SDXL 集成后,极大增强了设计图像的文本渲染能力,将准确率从 20% 提升至 90%,并优化了长文本的自动排版。


🛠️ 值得尝试的产品

SystemAnimatorOnline 是一款强大的 AI 全身和面部运动追踪工具。它可以通过网络摄像头或视频追踪动作,使用户能够通过自己的动作来控制虚拟角色,为虚拟直播和视频制作带来了新的互动方式。此外,它不仅支持 3D 头像和运动的记录以及导出,甚至还可以加载 3D 动作和自定义场景。通过与 VMC 协议和透明背景的兼容性,它为虚拟内容创作打开了更广泛的天地。


Stable Video 3D(SV3D) 是由 Stability AI 开发的领先的 3D 内容创作模型,能够把一张平面图片转化为可在多个角度观看的视频或 3D 模型。SV3D 具备两种模式:SV3D_u 可以生成 360 度全景视频,而 SV3D_p 可以依据特定路径创作出定制视角的 3D 视频。


Pipio 是一款视频 AI 配音工具,专门设计用来将视频中的对话翻译成各种不同的语言,并自动模仿原声音进行配音。它还能确保配音与角色的口型保持同步,增强了观众的观看体验。这款工具极大地简化了制作多语言视频内容的过程,提升了工作效率,同时保证了视频的自然流畅和专业水准。无论你是一名内容创作者还是在跨国公司工作,只要你需要进行视频本地化,Pipio 是一款值得尝试的工具。


Suno AI 是一款采用深度学习技术的音乐创作平台,该平台以用户的文字提示为基础,帮助他们快速创建出专业级别的音乐。这款产品是由马萨诸塞州剑桥的专业团队开发。同时他们还开源了 Bark TTS 和 Chirp 这两款模型供公众使用。对 AI 生成音乐感兴趣的朋友可以试试。


你可以订阅我们的 newsletter 以及公众号,或者加入 Discord,以获取最新的教程。