AI Weekly 011

AI Weekly 011

🆕 更新了什么?

产品更新:

  • 增加了 ControlBoard 功能,你可以通过侧边栏去调整各个节点的参数,无需再苦恼找不到调整参数的地方。
  • 增加了显眼的 Cancel 按钮,取消运行更方便。

  • 增加了设置菜单,你现在可以手动调整语言设置了。
  • 优化了部分通知的显示问题。
  • 修复了一些已知的 bug:
    • 修复了部分插件适配问题。
    • 修复了部分 Win 用户系统找不到 Powershell 的问题。

下载链接:Comflowyspace (opens in a new tab)

🤩 每周 AI 精选

📄 值得关注的论文 & 技术

Magi 模型通过精确识别漫画页上的关键元素如面板、文本和角色,进而将漫画内容巧妙转换成细腻的文字剧本。此技术不仅在漫画理解和自动化处理方面设定了新的标准,而且通过角色聚类和文本关联等高级功能,保证了剧本叙述的逻辑严密性和阅读顺序的准确性,为读者带来了前所未有的阅读体验。


Human to Humanoid (H2O) 基于强化学习(Reinforcement Learning, RL)技术,允许用户仅通过一个 RGB 摄像头就能实现对全尺寸人形机器人的实时全身遥控操作。H2O 系统的核心在于它能够将人体的动态动作,如:走路、后跳、踢、转身、挥手、推、拳击等,转换为人形机器人可以执行的动作,从而实现人机无缝协作。


DragAnything 通过实体表示实现对视频中任意物体的精确运动控制。用户通过绘制简单轨迹即可操控对象,无需复杂的辅助信号。这项技术支持多对象同时控制,显著提升了编辑效率和视频质量。


NaturalSpeech 3 通过创新的分解扩散模型,将语音分解为内容、韵律、音色和声学细节等独立子空间,并分别生成这些属性,从而有效模拟复杂语音。NaturalSpeech 3 在语音质量、相似性、韵律和可理解性方面超越了现有技术,特别是在 LibriSpeech 测试集上,其合成语音质量与真实语音相媲美。


🛠️ 值得尝试的产品

Optimizer AI 是一个音效生成工具,它可以根据文字提示生成适用于各种场景的声音和音效,如游戏的射击声、动画的雨声以及地铁到站声等。它支持立体声和 44.1kHz 高质量音频,增强了真实感和沉浸体验,并允许直接从视频生成声音效果,为用户提供了极大的创作便利。


Screenshot to Code 是一个开源项目,它能将屏幕截图自动转换为 HTML、CSS 或前端框架(如 React、Vue)的代码。该项目利用 OpenAI 的 GPT-4 Vision 技术进行图像识别和代码生成,以及 DALL-E 3 生成图像,从而简化了前端开发流程。用户只需上传截图,系统便能识别界面元素并输出相应的代码,极大地提高了开发效率。


Dora AI 是一个无代码网站构建平台,借助 AI 生成技术,只通过文本提示就能快速生成可编辑、可交互的网站。


PixVerse AI 能够接受图像、文本和音频等多种数据源作为输入,生成连贯、逼真的视频内容。该平台能在短时间内将用户提供的素材转化成视频,极大提高了视频制作的效率,并支持用户对生成的视频进行个性化设置和调整。


你可以订阅我们的 newsletter 以及公众号,或者加入 Discord,以获取最新的教程。