NVIDIA 推出的 AI Blueprint:可以帮你观看数小时的视频并提供摘要总结和问答
24/11/10 17:14
Google 正式推出 Gemini AI 驱动的视频演示应用 Vids 通过简单提示即可生成视频演示
24/11/10 10:23
Magentic-One:微软发布用于解决复杂任务通用多智能体 可自行编写和执行代码并进行人机交互
24/11/09 20:50
苹果正式推出集成 Siri 和 Apple Intelligence新框架 Siri可以实时读取你屏幕信息并执行操作
24/11/08 17:42
X-Portrait 2:由字节跳动开发 可将任意视频角色的表情和动作转移到任意对象的技术
24/11/07 14:41
FLUX 1.1 Pro Ultra 发布 支持高达 4 兆像素的分辨率 每张图片仅需约 10 秒
24/11/07 14:21
ReadKidz:利用AI一键生成儿童绘本故事书和多媒体故事 可随心定制设定
24/11/06 22:05
腾讯发布3D开源模型:混元-3D 10秒即可生成高分辨率细3D模型
24/11/05 18:23
Hertz-dev:首个会话音频开源模型 全双工实时语音交互 120毫秒超低延迟
24/11/05 16:57
腾讯发布目前最大开源MoE模型:腾讯混元大模型(Hunyuan-Large) 具有 3890 亿参数
24/11/05 15:58
Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆
24/11/05 14:57
Rive 发布 Layouts 新功能 只需设计一次 图像动画自动适应屏幕大小和各种布局
24/11/05 10:47
苹果发布 Ferret-UI 2 专门理解和与移动用户界面交互的模型 让手机成为通用UI助手
24/11/04 22:40
教程:使用 E2F5工具实现文本转语音和唇同步视频制作
24/11/04 19:17
Runway Act-One 使用教程 :仅通过单个视频和任意角色图像生成生动的表演动画
24/11/04 14:15
Recraft发布其最新图像生成模型:Recraft V3 可精确处理复杂长文本和手指等解剖学细节
24/11/04 11:17
In-Context LoRA:给图像生成模型增加“情节记忆力”和“角色一致性”的能力
24/11/03 21:53
Claude 3.5 新功能 支持对 100 页的PDF 图像、图表和图形进行可视化分析
24/11/03 18:17
Meta FAIR发布人工多模态指尖 具有人类级别的触觉感知能力 增强机器人触觉感知
24/11/03 14:57