腾讯元宝接入 DeepSeek V3.1,开启全新智能体验

2025 年 8 月 22 日,腾讯旗下 AI 智能助手“元宝”已正式接入 DeepSeek 最新模型 V3.1,为用户带来显著的体验提升。目前,无论是在电脑版还是网页版,用户均可抢先体验全新升级带来的优势

DeepSeek V3.1 在架构上采用 混合推理模式,即支持“思考模式”和“非思考模式”的无缝切换,让模型在处理不同任务时更加灵活高效 。与此同时,升级后的 Think 模式大幅提升响应速度,比上一代模型(如 DeepSeek‑R1‑0528)能更快输出答案,让创意和解决方案“灵感秒现”

此外,新版本显著增强了 Agent 能力,赋予元宝处理复杂任务的能力。无论是文案写作、数据分析、方案策划,还是日常生活规划,V3.1 的智能工具调用能力大幅升级,让元宝不仅能“懂你”,还能“帮你”

DeepSeek-V3.1 模型本身具有业界领先的 混合推理结构、长上下文处理能力(如支持长文分析),同时通过 Post‑Training 优化大幅提升工具应用表现,为平台提供了高效运转的技术基石

此次 DeepSeek V3.1 的接入,使腾讯元宝从传统 AI 助手向“智能搭档”跨越。速度快、思考深、行动利落,是其关键词。同时,元宝基于腾讯生态的优势将覆盖更多应用场景,适合写作、办公、学习、生活等多样场景需求。

可灵AI首尾帧功能重磅升级!2.1模型效果提升235%,视频创作进入精准控制时代

2025 年 8 月 22 日,快手旗下 AI 视频生成平台 可灵 AI 正式推出基于 2.1 模型 的全新“首尾帧”功能,通过端到端多模态语义推理能力,实现视频开头与结尾帧的精准控制。官方评测数据显示,整体生成效果相比 1.6 版本提升高达 235%,显著提升用户创作体验

此次升级在多个创作维度上表现优异:包括解决传统 AI 视频常遇的转场卡顿问题,实现多场景的自然无缝衔接;增强视觉冲击力,助力打造电影级视觉特效;支持复杂运镜,提升整体观感的沉浸感;并广泛适用于广告营销、影视、短剧及动画等创意制作场景

此外,权威评测显示可灵 2.1 在整体 GSB(群体一致性评分)上全面领先于同类模型。在与 Midjourney 和 Seedance1.0 mini 的横向对比中,胜率分别达 62%57%,并在与可灵 1.6 的对比中有明显优势

即梦AI上线智能多帧功能!最多支持10张图片,一键生成超长镜头

2025 年 8 月 23 日, 字节跳动旗下 AI 内容平台 即梦AI 推出全新 “智能多帧” 功能,用户可上传 2–10 张关键帧图像,同时设置每帧停留时长和文本提示,平台便能自动生成空间连贯、运镜流畅且节奏自然的长镜头视频作品,有效突破以往镜头长度与连贯性的技术瓶颈

该功能通过对输入图像内容的自动识别,以及结合用户设定的提示文本与停留时长,快速生成视觉上平滑、连贯的过渡效果,使视频整体看起来如同一镜到底般自然流畅。同时,它显著降低了用户人工分镜与合成的复杂度,为创作者提供更高效的视频连贯控制体验

VAST重磅发布Tripo 3.0!AI 3D建模新王者诞生,4000万数据集震撼全球

2025 年 8 月 21 日,中国 generative AI 独角兽 VAST 正式发布其全新旗舰 3D 建模模型 Tripo 3.0,标志其进入高分辨率与高效生成的新阶段。官方数据显示,VAST 已为全球超过 300 万专业开发者700+ 大型企业客户提供服务,所使用的高质量 3D 原生数据集总规模已突破 4000 万,堪称行业最震撼的资源积累之一

Tripo 3.0 基于此前广受好评的 Tripo 系列,在参数规模、细节表现、纹理质量等方面实现了 300% 的增强,并搭载由 ICCV 2025 口头论文首次提出的下一代模型架构 TripoSF,显著提升生成精度与效率

这一代模型不仅提升了 3D 表面细节质量,还在纹理、几何结构精准度方面达到新高度,使得用于游戏资产、影视制作、虚拟现实(VR/AR)应用的建模体验更加逼真与专业。

​钉钉携手通义实验室推出全新语音识别大模型 Fun-ASR

2025 年 8 月 22 日,钉钉与通义实验室语音团队联手推出新一代语音识别大模型 Fun-ASR,专为企业场景优化,现已集成至钉钉多个模块,包括会议字幕与同传、智能纪要与语音助手等功能中 

核心优势亮点

  1. 精准识别行业专用术语:Fun‑ASR 经过上亿小时音频训练,并结合互联网、科技、家装、畜牧、汽车等多个行业的真实场景数据,能够准确识别专业术语和“行业黑话” 

  2. 增强上下文理解能力:模型可调用企业授权的工作信息(如通讯录、日程、知识库),提升识别上下文逻辑,显著减少转写“幻觉”问题

  3. 可定制企业专属模型:Fun‑ASR 支持基于企业提供的语音数据进行定制训练,提升品牌名称、项目代码、产品术语、人名等领域词汇的识别准确率

通义实验室语音团队负责人李先刚表示,此次合作推动了语音识别技术在企业场景中的创新落地,未来将继续扩大 Fun‑ASR 的数据与模型规模,提升其行业复制能力;钉钉 CTO 朱鸿称,两团队仅用三个月就实现模型落地,并赢得头部客户高度认可,说明该方案可为行业提供参考范例

谷歌搜索新增 AI Agent,餐厅预订与个性化服务一键搞定!

2025 年 8 月 21 日 谷歌在其AI Mode 中首次引入“agent”功能,可通过AI代理自主帮助用户完成餐厅预订。该功能目前针对美国用户,需订阅 Google AI Ultra(每月约 $250),并在 Search Labs 中启用“Agentic capabilities”实验方可使用。用户只需提供人数、时间、地点、菜系等要求,AI Mode 即可从 OpenTable、Resy、Tock 等平台检索实时可订餐厅并生成预订链接,助力用户快速完成预订流程

同时,AI Mode 能根据用户过去在搜索和地图中的偏好,提供个性化餐厅推荐。美国用户可通过开启实验获取更符合他们口味的结果,包括偏好菜系、室内或室外就坐等条件;用户也可通过“Share”按钮分享AI对话链接,让他人加入探讨或继续查询,并随时撤销分享链接

在全球范围方面,谷歌已将 AI Mode 推广至超过 180 个国家和地区(仅限英文版本),使更多用户能体验该智能搜索功能,尽管 agent 功能暂未在全球普及

清华IDEA团队重磅发布GUAVA!单张照片0.1秒生成3D化身,技术突破震撼全球

2025 年 8 月 23 日,清华大学深圳国际研究生院与粤港澳大湾区数字经济研究院(IDEA)联合研发的最新框架 GUAVA(Generalizable Upper Body 3D Gaussian Avatar) 正式发布,该技术采用单张照片即可在约 0.1 秒之内,生成包含面部表情与手势的上半身 3D Gaussian 化身,实现实时动画渲染与新视角合成

GUAVA 的核心创新在于引入 Expressive Human Model (EHM),结合 SMPLX 与 FLAME 模型,将更强的面部表达能力融入跟踪系统。此外,通过 逆向纹理映射投影采样技术,可以从单张图像中高效预测上半身 Gaussian 表示,再经过神经网络细化,实现高质量渲染输出

与既有方法相比,GUAVA 在渲染质量和速度上皆有显著优势:相比需耗费数分钟乃至数小时的传统 3D 重建方法,其推理速度快约几十倍,而渲染质量和表现一致性也更优

此外,该项目已入选 ICCV 2025,并开源相关论文、代码及演示视频,为学术界和开发者提供了可靠的技术资源

阿里发布新一代Agentic Coding编程平台Qoder

2025 年 8 月 22 日,阿里巴巴今日全球发布 Agentic 编程平台 Qoder,它集成顶尖编程模型与增强型上下文工程能力,可一次性检索多达 10 万个代码文件,实现 AI 智能体自主编程,大幅提升开发效率。官方表示,通过 Qoder 构建一个电商网站前后端,原需几天的工作仅需 十分钟 即可完成

Qoder 拥有三大核心优势:

  • 上乘的上下文工程能力:支持 Repo Wiki 功能,将代码工程中的隐性知识自动整理成结构化文档;还集成长短期记忆系统,可基于对话历史实时总结项目经验与用户偏好,并将其存储为“笔记”,实现智能进化  。

  • 多种开发模式灵活切换:包括 Ask Mode(问答模式)、Agent Mode(智能体模式),以及新推出的 Quest Mode(AI 自主研发模式)。在 Quest Mode 下,AI Agent 可扮演全栈工程师,将模糊需求转为设计方案并自动完成开发任务,效率提升 10 倍以上  。

  • 优秀性能表现:实测数据显示,Qoder 的代码检索召回率领先行业标杆产品 12%,代码生成准确率提升约 13%,在复杂工程理解和生成方面全面领先

Qoder 已支持 macOS 与 Windows 系统,目前处于全球免费体验阶段,开发者可在官网下载安装使用

阿里Mobile-Agent-v3横空出世!GUI自动化领域迎来跨时代突破

025 年 8 月 21 日,阿里巴巴开源项目 Mobile-Agent-v3 正式发布,这是一套跨平台多智能体 GUI 自动化框架,基于新一代视觉语言模型 GUI-Owl,在 AndroidWorld 和 OSWorld 基准测试中取得开源最高性能,刷新行业标准

核心能力与技术跃升

  • 性能领先:Mobile-Agent-v3 在 AndroidWorld 上得分 73.3,OSWorld 达 37.7,双项领先开源 GUI Agent 体系 。

  • 模型核心:框架采用 GUI-Owl(7B/32B),支持视觉感知、界面理解、规划决策与操作执行的端到端流程,将 GUI 自动化统一在一个模型中 。

  • 环境基础设施:构建涵盖 Android、Ubuntu、macOS、Windows 的云端虚拟测试环境,实现“自演进 GUI 轨迹生产”功能,通过自动化生成与验证、模型迭代演化以提高数据质量与泛化能力 。

  • 智能多 Agent 协作:支持任务分解、计划管理、进度监控、异常应对与关键数据记录,为复杂跨应用任务提供稳定、高效执行能力 。

  • 开源生态:包括技术报告、论文、代码与模型权重均已开放,欢迎社区复现、贡献与落地 。

Mobile-Agent-v3 的发布是 GUI 自动化领域的一次巨大跃迁,它不依赖传统的脚本与规则,而通过 AI 智能体实现动态、多步骤任务规划与执行。尤其是在复杂界面场景下,其鲁棒性与性能显著优于早先方法。

未来,这套平台有望广泛应用于自动化测试、无障碍操作、智能助手,以及跨平台业务流程机器人等场景。随着社区持续精进,Mobile-Agent-v3 很可能成为 GUI 自动化进入真正智能时代的行业标杆