1. 字节跳动“豆包”上线“emoji小人儿”动态效果，引发用户热议

近日，字节跳动旗下“豆包”应用宣布，其“豆包P图”功能新增支持生成“emoji小人儿”动态效果。该功能允许用户通过上传照片并选择特定模板，将真人形象与emoji元素融合，快速生成趣味十足的动态图片或GIF，为社交分享增添新亮点。

据介绍，用户在“豆包P图”中选择“Emoji”或“变成岛主”等热门模板，上传一张照片，即可一键生成带有emoji元素的动态效果。整个过程简单快捷，显著降低了创作门槛，让普通用户也能轻松制作个性化的视觉内容。

业内分析认为，该功能充分展现了“豆包”在人工智能与图像处理技术上的融合创新。通过深度学习模型叠加emoji动态特效，作品不仅富有创意，还具备互动性，契合了年轻用户个性化表达与娱乐化社交的需求。

自上线以来，该功能获得了大量年轻用户的积极反馈。许多用户表示，这样的动态图片不仅能为日常聊天增加趣味性，也提升了社交分享的吸引力。专家指出，在UGC（用户生成内容）持续兴起的背景下，此类趣味互动效果有望在未来的社交媒体生态中占据一席之地。

有业内人士预测，随着AI技术的不断成熟，“豆包”或将继续拓展更多个性化、智能化的图像处理功能，进一步增强其在短视频与社交领域的竞争力。此次功能更新也被视为其在数字内容创新道路上的又一次积极探索。

2. 春晚“明星”再夺冠!宇树 H1夺机器人史首枚1500米金牌

北京，2025 年 8 月 15 日 在今天于国家速滑馆举办的 2025 世界人形机器人运动会的 1500 米田径赛中，宇树科技旗下全资子公司“北京灵翌科技”派出的 H1 型人形机器人以 6 分 34 秒（6:34.40）的成绩成功夺冠，这也是本届赛事的第一枚金牌

这款夺冠机器人正是曾于 2025 年春晚舞台上表演“扭秧歌”的同款 H1 模型。该机器人是宇树科技研发的首款全尺寸人形机器人，面世于 2023 年

赛事规模宏大，吸引了来自 16 个国家、280 支参赛队伍的 500 多台人形机器人参与角逐，竞赛项目涵盖竞技赛、表演赛、场景赛等多种形式，共设 26 个比赛项目

赛后，宇树科技创始人王兴兴指出：此次参赛的 H1 就是春晚同款，象征意义重大。他表明：“虽然是 2023 年型号，现在在速度和耐力方面都进行了算法优化和提升。”他强调，此次比赛不再是舞台表演，而是极限速度与耐力的对决

红星新闻报道补充指出，H1 在此次赛事中采用了遥控方式以发挥极限性能，而亚军“天工 Ultra”则运行全自主算法模式。这次夺冠虽是遥控，但团队表示未来仍将挑战更高难度，并进一步优化其自主能力

根据记者现场观察与报道，H1 再次证明了其作为行业“老将”的强劲实力。一位机器人参赛企业代表评价：“宇树 H1 的速度真的非常快，非常非常快”，“训练赛上，没人能比得过宇树。”

3.Meta重磅开源DINOv3: 无需人工标注的AI视觉“神器”，颠覆图像识别新未来

近日，Meta 正式开源 DINOv3，这是一款无需人工标注的自监督视觉基础模型，被业内视为图像识别领域的重大突破。DINOv3 在训练中完全摒弃人工标签、网络标题或元数据，仅依赖 17 亿张图像的自学习完成训练。相比前代，模型参数扩大 7 倍、数据量增加 12 倍，达到 70 亿参数规模。

技术上，DINOv3 首次实现冻结视觉骨干网络在目标检测、语义分割等密集任务上超越传统模型，并引入“Gram Anchoring”新方法，通过对齐图像局部特征相似度，稳定大规模训练并保持高质量输出。同时，模型支持高分辨率输入与多架构适配（ViT、ConvNeXt 等），便于在不同算力条件下部署。

在实际应用中，世界资源研究所用 DINOv3 将肯尼亚树冠高度测量误差从 4.1 米降至 1.2 米，NASA 喷气推进实验室也将其应用于火星探测视觉系统。Meta 已在 Hugging Face 与 GitHub 发布全部训练代码、预训练模型及示例，推动全球研究者与企业快速应用。

业内认为，DINOv3 不仅降低了计算机视觉门槛，也为环境监测、医疗影像、自动驾驶和太空探索等领域带来广阔前景，并为多模态 AI 奠定坚实基础。

4. 海外新品 MuleRun 爆火：每人独享虚拟机，AI Agent 自动玩游戏、建模

近日， 阿里云（Alibaba Cloud）最新推出的 MuleRun 平台迅速登上热搜。这是一种创新型“AI Worker Marketplace”，为每位用户提供独立的云端虚拟机，并配备 AI Agent，能够自动化执行游戏操作和建模任务，颇受开发者期待。

目前，MuleRun 正在开放“Genesis Global Creators”计划申请，仅限 100 个名额，面向全球开发者开放，这一消息引发创意型团队和发烧者的关注。

该平台核心价值在于：用户无需配置硬件，即可获得专属虚拟机环境，并使用 AI Agent 完成复杂任务，如自动玩游戏、环境建模等。从官方 X 帐号透露的内容来看，AI Agent 能“和你一起探索地下城”，展示出自动协作和互动的潜力，它结合云端虚拟机与 AI Agent 自动执行能力，若能顺利推进，或将在游戏自动化、数字内容制作等行业掀起新一轮变革。但当前仍处于探索与推广阶段，未来表现值得关注。

5. 快手可灵 2.1 模型内测首尾帧功能：提升视频创作体验

近日， 快手旗下视频生成模型可灵 2.1 宣布开启全新“首尾帧”功能内测。据官方介绍，该功能旨在让视频的开头与结尾拥有更精细的控制，进一步提升整体视觉流畅度与表现力。

此项升级带来“电影级”运镜控制，转场更丝滑自然，同时显著增强了模型应对复杂语义与场景的精准表现。用户可自定义首尾帧图像，从而生成连贯、高质量的视频内容，有效解决 AI 视频生成中常见的“转场生硬”与“文本响应不足”问题。该功能特别适用于产品宣传片、AI 电影或 AI 短剧等专业创作场景，提升视频的一致性和稳定性。

自 5 月 29 日发布以来，可灵 2.1 模型已迭代升级逾 30 次，支持标准（720p）与高品质（1080p）两种模式，兼具高性价比与生成效率。其中，高品质模式下生成 5 秒视频仅需不到 1 分钟，标准模式消耗灵感值明显降低，整体成本下降约 65% 。此外，可灵 2.1 在动态细节、物理模拟精度、提示词理解等方面的表现也有所提升。

据统计，可灵 AI 已拥有超过 4500 万全球创作者，累计生成视频超过 2 亿个、图片超过 4 亿张，显示出开创 AI 视频创作生态的强大潜力。

此次“首尾帧”功能是可灵 2.1 在视频生成质量上的重要突破，为创作者提供了更高的定制化与连贯性控制。尤其适用于需要精致视觉表现的专业场景，同时也展现出快手在 AIGC 视频生成领域持续推动技术落地的决心。随着功能逐步开放，期待其进一步赋能短视频与影视创作生态。

6. 腾讯云推出 CloudBase AI CLI：一站式 AI 编程入口，编码量可减少 80%

近日，腾讯云今日正式升级其 AI 开发工具 CloudBase AI ToolKit 为 CloudBase AI CLI，这是首款深度集成云开发平台的 AI 命令行统一管理工具，可通过自然语言一键调度多款 AI 编程助手，实现“从代码生成到部署运维”的全流程覆盖，据称可减少 80% 的编码工作量。

许多内测开发者表示，通过 CLI 工具从设计到部署“一气呵成”，开发周期显著缩短，学习与操作成本大幅降低，推动项目交付流程更加自动化和智能化。

CloudBase AI CLI 的推出，标志着腾讯云在 AI 辅助编程领域的又一积极进展。它通过“自然语言 + 命令行”的新交互模式，极大简化了开发流程，并将云端部署与 AI 编程顺畅融合，具备很高的实用价值。未来，若能持续优化模型能力、丰富集成场景，其在创业项目、企业开发团队乃至教育领域的推广潜力不容小觑。

7. 昆仑万维上线 Mureka V7.5 与 MoE-TTS：AI 音乐与语音合成迎来质的飞跃

近日，昆仑万维在其 SkyWork AI 技术发布周最后一天宣布，正式上线音乐生成模型 Mureka V7.5，并同时推出创新语音合成框架 MoE-TTS，展现出其在 AI 音乐创作与语音控制领域的深厚实力。Mureka V7.5 针对中文歌曲进行了深度优化，显著提升音色与演唱技法的表现，在“咬字”“情感表达”等方面营造出更自然真实的体验。其理解模型对传统民歌、戏曲、华语流行及当代民谣等曲风具备丰富认知，并通过改进的 ASR 技术深入识别唱词、气息控制和换气节奏，实现更具结构清晰度与情感张力的 AI 人声生成。

与此同时，MoE‑TTS 框架引入“Mixture of Experts”（MOE）机制，通过模态路由在 Transformer 中解耦文本与语音处理路径。该系统结合预训练大语言模型的文本理解能力与多个语音专家模块，实现文本与语音间“知识零损失”高效对齐。这赋予 MoE‑TTS 在开放性描述场景下，通过自然语言如“清澈少年音带磁性尾韵”精准控制音色风格的能力，在风格贴合度与整体表现上已超越部分闭源商业产品。

两项技术的推出不仅奠定了昆仑万维在 AI 音乐与语音合成前沿的创新地位，而且展现出其引领行业从“模板化”“闭环控制”向“自然语言自由控制”转型的战略愿景。MoE‑TTS 将进一步被集成至其 Mureka‑Speech 平台，助力数字人配音、虚拟助手、沉浸式内容等多样场景的声音表达升级。

昆仑万维在 Mureka V7.5 中融入对中文音乐文化细腻理解与精细 ASR 优化，使 AI 人声生成更富真实感与艺术性；而 MoE-TTS 创新的模态解耦机制及自然语言控制能力，则为语音生成领域开辟了更灵活开放的发展路径。两者联动，将在音乐创作、数字人配音及多角色语音场景中发挥极大潜能。

8. OpenAI 考虑为 ChatGPT 引入广告，高管称“保持灵活性很重要”

OpenAI 正在探索增加收入的路径，其中可能包括在 ChatGPT 中引入广告。对此，ChatGPT 负责人 Nick Turley 在接受采访时表示，并不完全排除广告选项，但强调必须“非常慎重且品味端庄”地实施，以免影响用户体验与目标对齐。

Turley指出，OpenAI可能会对不同产品采用多元商业模式。他认为，ChatGPT 可能并不适合广告，因为它“深度服务用户目标”，但这不意味着公司“未来不会推出其他采用广告的产品”。同时，他强调当前订阅模式表现极佳，增长迅速，仍有巨大潜力可挖。

截至目前，ChatGPT 用户总量已突破 7 亿，其中约 2000 万为付费用户。Turley表示，庞大的免费用户基础并非负担，而是构建差异化付费产品的重要渠道。

OpenAI 尚未盈利，预计要到 2029 年才可能实现现金流正向。Turley强调，虽然广告是选项之一，但必须谨慎在保持用户信任和体验的基础上推进。

此外，广告可能带来的影响也引发业界警惕。一旦广告与 AI 回答混合使用，可能会模糊内容与商业推荐的界限，损害透明度与可信度

9. 谷歌发布超小型高效开源 AI 模型 Gemma 3 270M：真正能跑在智能手机上的模型来了

谷歌 DeepMind 推出最新开源模型 Gemma 3 270M，这是 Gemma 系列中最紧凑的版本，仅包含 2.7 亿参数，但具备强大的任务定制与指令理解能力，专为在智能手机等边缘设备上高效运行而生。

该模型由 1.7 亿 embedding 参数与 1 亿 transformer block 参数构成，拥有高达 256,000 的词汇量，可应对专业术语和罕见词语，同时提炼了出色的指令执行性能。在 IFEval 基准测试中，Gemma 3 270M 的表现达到了 51.2%，明显优于同参数量级的 Qwen 2.5 0.5B Instruct 和 SmolLM2 135M Instruct 模型。

更令人印象深刻的是其能效表现：在 Pixel 9 Pro 上运行的 INT4 量化版本完成 25 次对话后，仅消耗约 0.75% 电量，成为目前 Gemma 系列中最省电的模型之一。谷歌强调，这使得在联网条件受限、对隐私和实时体验有要求的场景里，Gemma 3 270M 成为极具吸引力的解决方案。

这一模型完全开源，开发者可在 Hugging Face、Kaggle、Ollama、Docker 等平台获取预训练版与指令调优版本。同时，谷歌提供了详尽调优与部署指南，支持 Hugging Face、UnSloth、JAX 等工具，便于快速构建任务专属模型

Gemma 3 270M 的推出符合“right tool for the job”（合适工具）理念，它并不追求规模最大，而是追求极致效率与设备适配。特别适合结构化文本提取、情感分类、创意写作等精确任务，也能用于隐私敏感、离线可用的场景。随着手机 AI 的普及，这类“微模型”将成为AI部署的重要趋势。

10. 香港大学联手开源项目OpenCUA，打造个性化电脑智能助手！

香港大学 XLANG 实验室联合开源社区 Dark Side of the Moon 等合作伙伴，发布了开源框架 OpenCUA（Computer-Use Agents），旨在为每个人打造可自定义的计算机智能助手。该项目已在 arXiv 上公开，其代码、模型与数据集全面开源，推动 CUA 研究生态向前迈进了一大步。

OpenCUA 在 CUA 领域的发布具有里程碑意义——它不仅建立了人机操作行为的大规模数据池，还提供了从“动作捕捉”到“动作执行”的完整研究链条。该模型兼具透明性和开放性，助力研究者深入探索 AI 助手在日常计算任务中的实用性与安全性。未来，依托这套开放框架，开发者可进一步训练更加高效、可信赖、可定制的桌面智能助手，具有广阔应用前景。

2025 年 12 月
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31