腾讯发布3D开源模型:混元-3D 10秒即可生成高分辨率细3D模型
24/11/05 18:23
Hertz-dev:首个会话音频开源模型 全双工实时语音交互 120毫秒超低延迟
24/11/05 16:57
腾讯发布目前最大开源MoE模型:腾讯混元大模型(Hunyuan-Large) 具有 3890 亿参数
24/11/05 15:58
Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆
24/11/05 14:57
Rive 发布 Layouts 新功能 只需设计一次 图像动画自动适应屏幕大小和各种布局
24/11/05 10:47
苹果发布 Ferret-UI 2 专门理解和与移动用户界面交互的模型 让手机成为通用UI助手
24/11/04 22:40
教程:使用 E2F5工具实现文本转语音和唇同步视频制作
24/11/04 19:17
Runway Act-One 使用教程 :仅通过单个视频和任意角色图像生成生动的表演动画
24/11/04 14:15
Recraft发布其最新图像生成模型:Recraft V3 可精确处理复杂长文本和手指等解剖学细节
24/11/04 11:17
In-Context LoRA:给图像生成模型增加“情节记忆力”和“角色一致性”的能力
24/11/03 21:53
Claude 3.5 新功能 支持对 100 页的PDF 图像、图表和图形进行可视化分析
24/11/03 18:17
Meta FAIR发布人工多模态指尖 具有人类级别的触觉感知能力 增强机器人触觉感知
24/11/03 14:57
π0:通用机器人策略模型 让机器人具备在人类环境中自主执行多种复杂任务的能力
24/11/03 13:20
D-ID推出了两款新数字人工具 只需一分钟视频训练即可生成 支持复杂表现
24/11/01 20:27
Wonder Dynamics 推出可将传统视频片段自动转换为 3D 动画场景新技术——Wonder Animation
24/11/01 15:33
Google Gemini API 新增“搜索锚定”功能 利用 Google 搜索实时数据确保准确性
24/11/01 12:10
OpenAI 高层 Reddit AMA 完整版
24/11/01 11:49
X-to-Voice:输入你的 Twitter 账号名称 自动生成能说话的个人资料头像
24/11/01 10:53
Google DeepMind 公布其NotebookLM背后的创新音频生成技术 使 AI 能够生成更加自然的对话
24/10/30 23:49