1. 字节跳动“豆包”上线“emoji小人儿”动态效果,引发用户热议
近日,字节跳动旗下“豆包”应用宣布,其“豆包P图”功能新增支持生成“emoji小人儿”动态效果。该功能允许用户通过上传照片并选择特定模板,将真人形象与emoji元素融合,快速生成趣味十足的动态图片或GIF,为社交分享增添新亮点。
据介绍,用户在“豆包P图”中选择“Emoji”或“变成岛主”等热门模板,上传一张照片,即可一键生成带有emoji元素的动态效果。整个过程简单快捷,显著降低了创作门槛,让普通用户也能轻松制作个性化的视觉内容。
业内分析认为,该功能充分展现了“豆包”在人工智能与图像处理技术上的融合创新。通过深度学习模型叠加emoji动态特效,作品不仅富有创意,还具备互动性,契合了年轻用户个性化表达与娱乐化社交的需求。
自上线以来,该功能获得了大量年轻用户的积极反馈。许多用户表示,这样的动态图片不仅能为日常聊天增加趣味性,也提升了社交分享的吸引力。专家指出,在UGC(用户生成内容)持续兴起的背景下,此类趣味互动效果有望在未来的社交媒体生态中占据一席之地。
有业内人士预测,随着AI技术的不断成熟,“豆包”或将继续拓展更多个性化、智能化的图像处理功能,进一步增强其在短视频与社交领域的竞争力。此次功能更新也被视为其在数字内容创新道路上的又一次积极探索。
2. 春晚“明星”再夺冠!宇树 H1夺机器人史首枚1500米金牌
北京,2025 年 8 月 15 日 在今天于国家速滑馆举办的 2025 世界人形机器人运动会的 1500 米田径赛中,宇树科技旗下全资子公司“北京灵翌科技”派出的 H1 型人形机器人以 6 分 34 秒(6:34.40)的成绩成功夺冠,这也是本届赛事的第一枚金牌
这款夺冠机器人正是曾于 2025 年春晚舞台上表演“扭秧歌”的同款 H1 模型。该机器人是宇树科技研发的首款全尺寸人形机器人,面世于 2023 年
赛事规模宏大,吸引了来自 16 个国家、280 支参赛队伍的 500 多台人形机器人参与角逐,竞赛项目涵盖竞技赛、表演赛、场景赛等多种形式,共设 26 个比赛项目
赛后,宇树科技创始人王兴兴指出:此次参赛的 H1 就是春晚同款,象征意义重大。他表明:“虽然是 2023 年型号,现在在速度和耐力方面都进行了算法优化和提升。”他强调,此次比赛不再是舞台表演,而是极限速度与耐力的对决
红星新闻报道补充指出,H1 在此次赛事中采用了遥控方式以发挥极限性能,而亚军“天工 Ultra”则运行全自主算法模式。这次夺冠虽是遥控,但团队表示未来仍将挑战更高难度,并进一步优化其自主能力
根据记者现场观察与报道,H1 再次证明了其作为行业“老将”的强劲实力。一位机器人参赛企业代表评价:“宇树 H1 的速度真的非常快,非常非常快”,“训练赛上,没人能比得过宇树。”
3.Meta重磅开源DINOv3: 无需人工标注的AI视觉“神器”,颠覆图像识别新未来
近日,Meta 正式开源 DINOv3,这是一款无需人工标注的自监督视觉基础模型,被业内视为图像识别领域的重大突破。DINOv3 在训练中完全摒弃人工标签、网络标题或元数据,仅依赖 17 亿张图像的自学习完成训练。相比前代,模型参数扩大 7 倍、数据量增加 12 倍,达到 70 亿参数规模。
技术上,DINOv3 首次实现冻结视觉骨干网络在目标检测、语义分割等密集任务上超越传统模型,并引入“Gram Anchoring”新方法,通过对齐图像局部特征相似度,稳定大规模训练并保持高质量输出。同时,模型支持高分辨率输入与多架构适配(ViT、ConvNeXt 等),便于在不同算力条件下部署。
在实际应用中,世界资源研究所用 DINOv3 将肯尼亚树冠高度测量误差从 4.1 米降至 1.2 米,NASA 喷气推进实验室也将其应用于火星探测视觉系统。Meta 已在 Hugging Face 与 GitHub 发布全部训练代码、预训练模型及示例,推动全球研究者与企业快速应用。
业内认为,DINOv3 不仅降低了计算机视觉门槛,也为环境监测、医疗影像、自动驾驶和太空探索等领域带来广阔前景,并为多模态 AI 奠定坚实基础。
4. 海外新品 MuleRun 爆火:每人独享虚拟机,AI Agent 自动玩游戏、建模
近日, 阿里云(Alibaba Cloud)最新推出的 MuleRun 平台迅速登上热搜。这是一种创新型“AI Worker Marketplace”,为每位用户提供独立的云端虚拟机,并配备 AI Agent,能够自动化执行游戏操作和建模任务,颇受开发者期待 。
目前,MuleRun 正在开放“Genesis Global Creators”计划申请,仅限 100 个名额,面向全球开发者开放,这一消息引发创意型团队和发烧者的关注 。
该平台核心价值在于:用户无需配置硬件,即可获得专属虚拟机环境,并使用 AI Agent 完成复杂任务,如自动玩游戏、环境建模等。从官方 X 帐号透露的内容来看,AI Agent 能“和你一起探索地下城”,展示出自动协作和互动的潜力,它结合云端虚拟机与 AI Agent 自动执行能力,若能顺利推进,或将在游戏自动化、数字内容制作等行业掀起新一轮变革。但当前仍处于探索与推广阶段,未来表现值得关注。
5. 快手可灵 2.1 模型内测首尾帧功能:提升视频创作体验
近日, 快手旗下视频生成模型可灵 2.1 宣布开启全新“首尾帧”功能内测。据官方介绍,该功能旨在让视频的开头与结尾拥有更精细的控制,进一步提升整体视觉流畅度与表现力 。
此项升级带来“电影级”运镜控制,转场更丝滑自然,同时显著增强了模型应对复杂语义与场景的精准表现 。用户可自定义首尾帧图像,从而生成连贯、高质量的视频内容,有效解决 AI 视频生成中常见的“转场生硬”与“文本响应不足”问题 。该功能特别适用于产品宣传片、AI 电影或 AI 短剧等专业创作场景,提升视频的一致性和稳定性 。
自 5 月 29 日发布以来,可灵 2.1 模型已迭代升级逾 30 次,支持标准(720p)与高品质(1080p)两种模式,兼具高性价比与生成效率。其中,高品质模式下生成 5 秒视频仅需不到 1 分钟,标准模式消耗灵感值明显降低,整体成本下降约 65% 。此外,可灵 2.1 在动态细节、物理模拟精度、提示词理解等方面的表现也有所提升 。
据统计,可灵 AI 已拥有超过 4500 万全球创作者,累计生成视频超过 2 亿个、图片超过 4 亿张,显示出开创 AI 视频创作生态的强大潜力。
此次“首尾帧”功能是可灵 2.1 在视频生成质量上的重要突破,为创作者提供了更高的定制化与连贯性控制。尤其适用于需要精致视觉表现的专业场景,同时也展现出快手在 AIGC 视频生成领域持续推动技术落地的决心。随着功能逐步开放,期待其进一步赋能短视频与影视创作生态。
6. 腾讯云推出 CloudBase AI CLI:一站式 AI 编程入口,编码量可减少 80%
近日,腾讯云今日正式升级其 AI 开发工具 CloudBase AI ToolKit 为 CloudBase AI CLI,这是首款深度集成云开发平台的 AI 命令行统一管理工具,可通过自然语言一键调度多款 AI 编程助手,实现“从代码生成到部署运维”的全流程覆盖,据称可减少 80% 的编码工作量 。
许多内测开发者表示,通过 CLI 工具从设计到部署“一气呵成”,开发周期显著缩短,学习与操作成本大幅降低,推动项目交付流程更加自动化和智能化 。
CloudBase AI CLI 的推出,标志着腾讯云在 AI 辅助编程领域的又一积极进展。它通过“自然语言 + 命令行”的新交互模式,极大简化了开发流程,并将云端部署与 AI 编程顺畅融合,具备很高的实用价值。未来,若能持续优化模型能力、丰富集成场景,其在创业项目、企业开发团队乃至教育领域的推广潜力不容小觑。
7. 昆仑万维上线 Mureka V7.5 与 MoE-TTS:AI 音乐与语音合成迎来质的飞跃
近日,昆仑万维在其 SkyWork AI 技术发布周最后一天宣布,正式上线音乐生成模型 Mureka V7.5,并同时推出创新语音合成框架 MoE-TTS,展现出其在 AI 音乐创作与语音控制领域的深厚实力 。Mureka V7.5 针对中文歌曲进行了深度优化,显著提升音色与演唱技法的表现,在“咬字”“情感表达”等方面营造出更自然真实的体验。其理解模型对传统民歌、戏曲、华语流行及当代民谣等曲风具备丰富认知,并通过改进的 ASR 技术深入识别唱词、气息控制和换气节奏,实现更具结构清晰度与情感张力的 AI 人声生成 。
与此同时,MoE‑TTS 框架引入“Mixture of Experts”(MOE)机制,通过模态路由在 Transformer 中解耦文本与语音处理路径。该系统结合预训练大语言模型的文本理解能力与多个语音专家模块,实现文本与语音间“知识零损失”高效对齐。这赋予 MoE‑TTS 在开放性描述场景下,通过自然语言如“清澈少年音带磁性尾韵”精准控制音色风格的能力,在风格贴合度与整体表现上已超越部分闭源商业产品 。
两项技术的推出不仅奠定了昆仑万维在 AI 音乐与语音合成前沿的创新地位,而且展现出其引领行业从“模板化”“闭环控制”向“自然语言自由控制”转型的战略愿景。MoE‑TTS 将进一步被集成至其 Mureka‑Speech 平台,助力数字人配音、虚拟助手、沉浸式内容等多样场景的声音表达升级。
昆仑万维在 Mureka V7.5 中融入对中文音乐文化细腻理解与精细 ASR 优化,使 AI 人声生成更富真实感与艺术性;而 MoE-TTS 创新的模态解耦机制及自然语言控制能力,则为语音生成领域开辟了更灵活开放的发展路径。两者联动,将在音乐创作、数字人配音及多角色语音场景中发挥极大潜能。
8. OpenAI 考虑为 ChatGPT 引入广告,高管称“保持灵活性很重要”
OpenAI 正在探索增加收入的路径,其中可能包括在 ChatGPT 中引入广告。对此,ChatGPT 负责人 Nick Turley 在接受采访时表示,并不完全排除广告选项,但强调必须“非常慎重且品味端庄”地实施,以免影响用户体验与目标对齐 。
Turley指出,OpenAI可能会对不同产品采用多元商业模式。他认为,ChatGPT 可能并不适合广告,因为它“深度服务用户目标”,但这不意味着公司“未来不会推出其他采用广告的产品”。同时,他强调当前订阅模式表现极佳,增长迅速,仍有巨大潜力可挖 。
截至目前,ChatGPT 用户总量已突破 7 亿,其中约 2000 万为付费用户。Turley表示,庞大的免费用户基础并非负担,而是构建差异化付费产品的重要渠道 。
OpenAI 尚未盈利,预计要到 2029 年才可能实现现金流正向。Turley强调,虽然广告是选项之一,但必须谨慎在保持用户信任和体验的基础上推进 。
此外,广告可能带来的影响也引发业界警惕。一旦广告与 AI 回答混合使用,可能会模糊内容与商业推荐的界限,损害透明度与可信度
9. 谷歌发布超小型高效开源 AI 模型 Gemma 3 270M:真正能跑在智能手机上的模型来了
谷歌 DeepMind 推出最新开源模型 Gemma 3 270M,这是 Gemma 系列中最紧凑的版本,仅包含 2.7 亿参数,但具备强大的任务定制与指令理解能力,专为在智能手机等边缘设备上高效运行而生 。
该模型由 1.7 亿 embedding 参数与 1 亿 transformer block 参数构成,拥有高达 256,000 的词汇量,可应对专业术语和罕见词语,同时提炼了出色的指令执行性能 。在 IFEval 基准测试中,Gemma 3 270M 的表现达到了 51.2%,明显优于同参数量级的 Qwen 2.5 0.5B Instruct 和 SmolLM2 135M Instruct 模型 。
更令人印象深刻的是其能效表现:在 Pixel 9 Pro 上运行的 INT4 量化版本完成 25 次对话后,仅消耗约 0.75% 电量,成为目前 Gemma 系列中最省电的模型之一 。谷歌强调,这使得在联网条件受限、对隐私和实时体验有要求的场景里,Gemma 3 270M 成为极具吸引力的解决方案。
这一模型完全开源,开发者可在 Hugging Face、Kaggle、Ollama、Docker 等平台获取预训练版与指令调优版本。同时,谷歌提供了详尽调优与部署指南,支持 Hugging Face、UnSloth、JAX 等工具,便于快速构建任务专属模型
Gemma 3 270M 的推出符合“right tool for the job”(合适工具)理念,它并不追求规模最大,而是追求极致效率与设备适配。特别适合结构化文本提取、情感分类、创意写作等精确任务,也能用于隐私敏感、离线可用的场景。随着手机 AI 的普及,这类“微模型”将成为AI部署的重要趋势。
10. 香港大学联手开源项目OpenCUA,打造个性化电脑智能助手!
香港大学 XLANG 实验室联合开源社区 Dark Side of the Moon 等合作伙伴,发布了开源框架 OpenCUA(Computer-Use Agents),旨在为每个人打造可自定义的计算机智能助手。该项目已在 arXiv 上公开,其代码、模型与数据集全面开源,推动 CUA 研究生态向前迈进了一大步 。
OpenCUA 在 CUA 领域的发布具有里程碑意义——它不仅建立了人机操作行为的大规模数据池,还提供了从“动作捕捉”到“动作执行”的完整研究链条。该模型兼具透明性和开放性,助力研究者深入探索 AI 助手在日常计算任务中的实用性与安全性。未来,依托这套开放框架,开发者可进一步训练更加高效、可信赖、可定制的桌面智能助手,具有广阔应用前景。