腾讯元宝接入 DeepSeek V3.1，开启全新智能体验

2025 年 8 月 22 日，腾讯旗下 AI 智能助手“元宝”已正式接入 DeepSeek 最新模型 V3.1，为用户带来显著的体验提升。目前，无论是在电脑版还是网页版，用户均可抢先体验全新升级带来的优势

DeepSeek V3.1 在架构上采用 混合推理模式，即支持“思考模式”和“非思考模式”的无缝切换，让模型在处理不同任务时更加灵活高效。与此同时，升级后的 Think 模式大幅提升响应速度，比上一代模型（如 DeepSeek‑R1‑0528）能更快输出答案，让创意和解决方案“灵感秒现”

此外，新版本显著增强了 Agent 能力，赋予元宝处理复杂任务的能力。无论是文案写作、数据分析、方案策划，还是日常生活规划，V3.1 的智能工具调用能力大幅升级，让元宝不仅能“懂你”，还能“帮你”

DeepSeek-V3.1 模型本身具有业界领先的 混合推理结构、长上下文处理能力（如支持长文分析），同时通过 Post‑Training 优化大幅提升工具应用表现，为平台提供了高效运转的技术基石

此次 DeepSeek V3.1 的接入，使腾讯元宝从传统 AI 助手向“智能搭档”跨越。速度快、思考深、行动利落，是其关键词。同时，元宝基于腾讯生态的优势将覆盖更多应用场景，适合写作、办公、学习、生活等多样场景需求。

可灵AI首尾帧功能重磅升级！2.1模型效果提升235%，视频创作进入精准控制时代

2025 年 8 月 22 日，快手旗下 AI 视频生成平台 可灵 AI 正式推出基于 2.1 模型 的全新“首尾帧”功能，通过端到端多模态语义推理能力，实现视频开头与结尾帧的精准控制。官方评测数据显示，整体生成效果相比 1.6 版本提升高达 235%，显著提升用户创作体验

此次升级在多个创作维度上表现优异：包括解决传统 AI 视频常遇的转场卡顿问题，实现多场景的自然无缝衔接；增强视觉冲击力，助力打造电影级视觉特效；支持复杂运镜，提升整体观感的沉浸感；并广泛适用于广告营销、影视、短剧及动画等创意制作场景

此外，权威评测显示可灵 2.1 在整体 GSB（群体一致性评分）上全面领先于同类模型。在与 Midjourney 和 Seedance1.0 mini 的横向对比中，胜率分别达 62% 和 57%，并在与可灵 1.6 的对比中有明显优势

即梦AI上线智能多帧功能！最多支持10张图片，一键生成超长镜头

2025 年 8 月 23 日， 字节跳动旗下 AI 内容平台 即梦AI 推出全新 “智能多帧” 功能，用户可上传 2–10 张关键帧图像，同时设置每帧停留时长和文本提示，平台便能自动生成空间连贯、运镜流畅且节奏自然的长镜头视频作品，有效突破以往镜头长度与连贯性的技术瓶颈

该功能通过对输入图像内容的自动识别，以及结合用户设定的提示文本与停留时长，快速生成视觉上平滑、连贯的过渡效果，使视频整体看起来如同一镜到底般自然流畅。同时，它显著降低了用户人工分镜与合成的复杂度，为创作者提供更高效的视频连贯控制体验

VAST重磅发布Tripo 3.0！AI 3D建模新王者诞生，4000万数据集震撼全球

2025 年 8 月 21 日，中国 generative AI 独角兽 VAST 正式发布其全新旗舰 3D 建模模型 Tripo 3.0，标志其进入高分辨率与高效生成的新阶段。官方数据显示，VAST 已为全球超过 300 万专业开发者与 700+ 大型企业客户提供服务，所使用的高质量 3D 原生数据集总规模已突破 4000 万，堪称行业最震撼的资源积累之一

Tripo 3.0 基于此前广受好评的 Tripo 系列，在参数规模、细节表现、纹理质量等方面实现了 300% 的增强，并搭载由 ICCV 2025 口头论文首次提出的下一代模型架构 TripoSF，显著提升生成精度与效率

这一代模型不仅提升了 3D 表面细节质量，还在纹理、几何结构精准度方面达到新高度，使得用于游戏资产、影视制作、虚拟现实（VR/AR）应用的建模体验更加逼真与专业。

钉钉携手通义实验室推出全新语音识别大模型 Fun-ASR

2025 年 8 月 22 日，钉钉与通义实验室语音团队联手推出新一代语音识别大模型 Fun-ASR，专为企业场景优化，现已集成至钉钉多个模块，包括会议字幕与同传、智能纪要与语音助手等功能中

核心优势亮点：

精准识别行业专用术语：Fun‑ASR 经过上亿小时音频训练，并结合互联网、科技、家装、畜牧、汽车等多个行业的真实场景数据，能够准确识别专业术语和“行业黑话”
增强上下文理解能力：模型可调用企业授权的工作信息（如通讯录、日程、知识库），提升识别上下文逻辑，显著减少转写“幻觉”问题
可定制企业专属模型：Fun‑ASR 支持基于企业提供的语音数据进行定制训练，提升品牌名称、项目代码、产品术语、人名等领域词汇的识别准确率

通义实验室语音团队负责人李先刚表示，此次合作推动了语音识别技术在企业场景中的创新落地，未来将继续扩大 Fun‑ASR 的数据与模型规模，提升其行业复制能力；钉钉 CTO 朱鸿称，两团队仅用三个月就实现模型落地，并赢得头部客户高度认可，说明该方案可为行业提供参考范例

谷歌搜索新增 AI Agent，餐厅预订与个性化服务一键搞定!

2025 年 8 月 21 日 谷歌在其AI Mode 中首次引入“agent”功能，可通过AI代理自主帮助用户完成餐厅预订。该功能目前针对美国用户，需订阅 Google AI Ultra（每月约 $250），并在 Search Labs 中启用“Agentic capabilities”实验方可使用。用户只需提供人数、时间、地点、菜系等要求，AI Mode 即可从 OpenTable、Resy、Tock 等平台检索实时可订餐厅并生成预订链接，助力用户快速完成预订流程

同时，AI Mode 能根据用户过去在搜索和地图中的偏好，提供个性化餐厅推荐。美国用户可通过开启实验获取更符合他们口味的结果，包括偏好菜系、室内或室外就坐等条件；用户也可通过“Share”按钮分享AI对话链接，让他人加入探讨或继续查询，并随时撤销分享链接

在全球范围方面，谷歌已将 AI Mode 推广至超过 180 个国家和地区（仅限英文版本），使更多用户能体验该智能搜索功能，尽管 agent 功能暂未在全球普及

清华IDEA团队重磅发布GUAVA！单张照片0.1秒生成3D化身，技术突破震撼全球

2025 年 8 月 23 日，清华大学深圳国际研究生院与粤港澳大湾区数字经济研究院（IDEA）联合研发的最新框架 GUAVA（Generalizable Upper Body 3D Gaussian Avatar） 正式发布，该技术采用单张照片即可在约 0.1 秒之内，生成包含面部表情与手势的上半身 3D Gaussian 化身，实现实时动画渲染与新视角合成

GUAVA 的核心创新在于引入 Expressive Human Model (EHM)，结合 SMPLX 与 FLAME 模型，将更强的面部表达能力融入跟踪系统。此外，通过 逆向纹理映射与 投影采样技术，可以从单张图像中高效预测上半身 Gaussian 表示，再经过神经网络细化，实现高质量渲染输出

与既有方法相比，GUAVA 在渲染质量和速度上皆有显著优势：相比需耗费数分钟乃至数小时的传统 3D 重建方法，其推理速度快约几十倍，而渲染质量和表现一致性也更优

此外，该项目已入选 ICCV 2025，并开源相关论文、代码及演示视频，为学术界和开发者提供了可靠的技术资源

阿里发布新一代Agentic Coding编程平台Qoder

2025 年 8 月 22 日，阿里巴巴今日全球发布 Agentic 编程平台 Qoder，它集成顶尖编程模型与增强型上下文工程能力，可一次性检索多达 10 万个代码文件，实现 AI 智能体自主编程，大幅提升开发效率。官方表示，通过 Qoder 构建一个电商网站前后端，原需几天的工作仅需 十分钟 即可完成

Qoder 拥有三大核心优势：

上乘的上下文工程能力：支持 Repo Wiki 功能，将代码工程中的隐性知识自动整理成结构化文档；还集成长短期记忆系统，可基于对话历史实时总结项目经验与用户偏好，并将其存储为“笔记”，实现智能进化。
多种开发模式灵活切换：包括 Ask Mode（问答模式）、Agent Mode（智能体模式），以及新推出的 Quest Mode（AI 自主研发模式）。在 Quest Mode 下，AI Agent 可扮演全栈工程师，将模糊需求转为设计方案并自动完成开发任务，效率提升 10 倍以上 。
优秀性能表现：实测数据显示，Qoder 的代码检索召回率领先行业标杆产品 12%，代码生成准确率提升约 13%，在复杂工程理解和生成方面全面领先

Qoder 已支持 macOS 与 Windows 系统，目前处于全球免费体验阶段，开发者可在官网下载安装使用

阿里Mobile-Agent-v3横空出世！GUI自动化领域迎来跨时代突破

025 年 8 月 21 日，阿里巴巴开源项目 Mobile-Agent-v3 正式发布，这是一套跨平台多智能体 GUI 自动化框架，基于新一代视觉语言模型 GUI-Owl，在 AndroidWorld 和 OSWorld 基准测试中取得开源最高性能，刷新行业标准

核心能力与技术跃升

性能领先：Mobile-Agent-v3 在 AndroidWorld 上得分 73.3，OSWorld 达 37.7，双项领先开源 GUI Agent 体系。
模型核心：框架采用 GUI-Owl（7B/32B），支持视觉感知、界面理解、规划决策与操作执行的端到端流程，将 GUI 自动化统一在一个模型中。
环境基础设施：构建涵盖 Android、Ubuntu、macOS、Windows 的云端虚拟测试环境，实现“自演进 GUI 轨迹生产”功能，通过自动化生成与验证、模型迭代演化以提高数据质量与泛化能力。
智能多 Agent 协作：支持任务分解、计划管理、进度监控、异常应对与关键数据记录，为复杂跨应用任务提供稳定、高效执行能力。
开源生态：包括技术报告、论文、代码与模型权重均已开放，欢迎社区复现、贡献与落地。

Mobile-Agent-v3 的发布是 GUI 自动化领域的一次巨大跃迁，它不依赖传统的脚本与规则，而通过 AI 智能体实现动态、多步骤任务规划与执行。尤其是在复杂界面场景下，其鲁棒性与性能显著优于早先方法。

未来，这套平台有望广泛应用于自动化测试、无障碍操作、智能助手，以及跨平台业务流程机器人等场景。随着社区持续精进，Mobile-Agent-v3 很可能成为 GUI 自动化进入真正智能时代的行业标杆

2025 年 12 月
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31