本周AI大事件:DeepSeek股票交易是“对上帝的胜利”,OpenAI自制浏览器“杀死了工作”

1、关键工具:开源视觉语言模型DeepSeek-OCR发布。浓缩的是算力的消息,而不是本质。 DeepSeek推出DeepSeek-OCR,一个拥有30亿个参数的开源视觉语言模型。我们专注于确保您理解图像和 PDF 文档。该模型已获得 MIT Style 许可,并由 HuggingFace 发布。 DeepSeek 还发布了相关代码和白皮书 DeepSeek-OCR:Contexts Optical Compression。 DeepSeek-OCR的独特之处在于,这种视觉语言模型显着改善了图像压缩的极限,同时保持了高质量的OCR识别结果。实验表明,当文本token数量不超过视觉tokens.ales数量的10倍(即压缩比小于10倍)时,我们的模型对OCR文档的解码准确率可以达到97%。这使得大规模语言模型(LLM)在 lon 压缩等研究领域展现出巨大潜力。g 历史背景和记忆遗忘机制。 DeepSeek-OCR不仅是一种高效的SOTA OCR模型,而且利用基于视觉的文本压缩技术为长上下文管理提供了新的思路。这使得人们可以使用更少的标记来理解图像中的文本(仅比直接阅读文本少 10 倍)。批判性评论:这种“压缩”技术可以提供 10 倍压缩,以换取 97% 的准确率。 2. 人工智能技术及产品发布:新品“夏饺子”,各大厂商活跃 1. 消息:OpenAI 推出 ChatGPT,将发布一款适合 macOS 的桌面人工智能浏览器,集成了网页浏览、ChatGPT 功能以及可选的“浏览器内存”功能。 OpenAI 将 ChatGPT Atlas 推广为“内置 ChatGPT 的浏览器”,提供与您的 ChatGPT 帐户关联的专有浏览器体验。一些评论家认为它比竞争对手的人工智能浏览器更好plexity Comet,而其他人则指出,虽然该工具具有潜力,但它仍然不是一个可靠的人工智能工具。
批判性评论:OpenAI 停止创建浏览器,AI 也开始浏览互联网。 2. 新闻:Anthropic 推出 Claude Code 网页版。您可以使用这个基于浏览器的界面执行并行编码任务并连接到 GitHub。其研究预览版支持隔离沙箱、任务指导和自动 PR 生成等功能。现在可供 Pro 和 Max 订阅者使用。 Anthropic 提供了其基于沙箱的安全控制的描述和概述,并共享了配置文档的链接。点评:写AI代码的时候,是不是要去掉调试呢? 3.新闻:介绍OpenAI针对ChatGPT的“内幕知识”功能。此功能可帮助用户集中公司范围内的信息,例如内部文档、常见问题解答和术语,使 ChatGPT 响应更好地反映组织的可信来源信息。这项新功能旨在降低自定义搜索的复杂性,并确保整个企业工作区的响应一致、合规。此外,企业管理员可以控制系统数据的权限和治理。锐评:ChatGPT企业版小规模上线。 4. 新闻:微软正在扩展 Edge 浏览器中的导航 Copilot 模式 AI 集成,以包括 Copilot 代理操作(例如取消订阅电子邮件和酒店预订)以及按主题对浏览历史记录进行分组的功能。新增“旅行”功能。新选项卡聊天、集成搜索/导航和操作/行程现已提供预览。美国用户现在可以在 Edge 浏览器中激活 CoPilot 模式。评论:Edge 变身为细心的网络妈妈。下一步是小心穿长内衣。 5. 新闻:谷歌推出基于 Gemini 的人工智能“vibecoding”工具。用户只需输入自己的想法即可创建 Web 应用程序。用户描述他们的应用程序可以通过消息的方式完成,人工智能工具可以在几分钟内创建并部署整个应用程序代码。该工具在AI Studio中启动,并与Gemini 2.5 Pro配合使用。其他功能包括代码查看、检查点恢复和应用程序部署。芮平:在AI面前,任何软件工厂都只是一个伎俩。 6、新闻:玉树科技推出新一代H2仿生人形机器人。这款重 70 公斤的机器人拥有 31 个自由度、具有面部特征的仿生头部和多种灵巧的手部选项,现已上市。
点评:马斯克的机器人工程师一定感到焦虑,压力很大。 7、消息:腾讯推出混元世界1.1开源世界模式。根据文本、图像和视频输入快速重建 3D 场景。 1.1 版扩展了输入范围以支持视频和多个图像。点评:这次腾讯把元界变成了“速溶茶包”。 8. 新闻:Liquid AI 推出轻量级多模组 LFM2-VL-3Bal(图像-文本)模型专为边缘和服务器的低效部署而设计。该模型具有可调节的速度和质量以及对 512×512 的本机支持。更多图像处理。 LFM2-VL-3B 在较小的开源型号中具有竞争力,现在可从 Hugging Face 购买。锐评:《终点站》关注的是一场错误的竞争,就像一场游击战。 9.消息:阿里巴巴统一钱文更新了Qwen3-VL系列,新增Qwen3-VL-2B-Instruct、Qwen3-VL-32等大小检查点。 B-Instruct(包括 FP8 变体)。芮点评:“Supermercado Modelo”已经装修完毕,有2B到32B可供选择。 10.新闻:艾伦人工智能研究所(AI2)发布了olmOCR-2-7B-1025-FP8,这是一个基于Qwen2.5-VL-7B的微调定量OCR模型。适合处理文档、公式、表格和扫描页面。该型号由 Hug Face 推出。犀利评论:老外模仿中国职责已经习惯了。 11、消息:百川智能正式推出百川-M2 Plus医疗模式,这也是业界首个“强化循证”医疗模式。该模型是百川今年8月推出的百川-M2医学推理模型技术的改进版本。这是百川在医疗AI领域的最新研究。 M2 Plus 的一大亮点是开创性的六源循证推理 (EAR) 范式。这一创新机制为医学领域长期存在的大模型幻觉问题提供了有效的解决方案,让AI不再“闭门造车”,而是有理有据地回答问题。点评:“循证”调整的魔咒真能控制大规模模型吗? 12.消息:Pokee AI基于Qwen2.5-7B-Instruct设置,发布abi代码代理PokeeResearch-7B“深度研究”erto,拥有70亿个参数。它使用 RLAIF 和推理框架来设计撰写、验证和综合来自多个来源的信息。 Pokee AI 声称在参数级别已达到 70 亿研究代理中的 SOTA 水平。用户现在可以从预览页面访问它,并且该模型现已在 Hugging Face 上提供。批判性评论:另一个自称 SOTA 的 7B 型号。 13. 新闻:Krea 开源实时视频模型 Krea Realtime 14B。该模型源自Wan 2.1 14B,第一帧生成时间约为1秒,可以以交互速度流式传输和渲染长视频。相关技术博客介绍了该模型如何使用“自我执行”技术使广播模型自回归并能够实时生成 lar videos.ga 时长。 Krea Realtime 14B 现已在 Hugging Face 发售。点评:1秒开始实时视频生成,AI将创造编辑历史。 14. 新闻:Lightricks 推出 LTX-2。它是 LTX 套件中内置的支持 4K 的高保真 AI 视频引擎,具有同步功能单一的音频和视频生成以及多种性能模式。 LTX-2 支持端到端创意工作流程,包括故事板、时间线和角色连贯性。 Lightricks 目前提供 LTX-2 的相关技术信息、文档和试用访问。点评:人工智能即将演变成“全自动视频录制”。 15. 新闻:Hugging Face 为 AI 表单添加视觉功能。通过此更新,许多用户正在使用开源模型来提取和丰富图像数据,将类似的工作流.lars 扩展到文本之外的电子表格并进入视觉领域。此版本支持视觉任务的快速原型设计,无需自定义 Python 管道。我在这儿。芮点评:未来Excel不仅能够提取数据,还能够“提取”图像。 16. 新闻:BrowserBase 发布Director 2.0。这是一款由 BrowserBase 和 Stagehand 提供支持的免费应用程序,可自动执行 Web 任务。 Director 2.0专为代理“计算机”而设计17. 新闻:三星与 Perplexity AI 合作,为其推出专用电视应用程序 智能电视2025系列,支持直接在屏幕上通过语音和文本进行AI搜索。用户无需手机即可搜索航班、食谱和新闻。芮成钢点评:电视不仅是看的东西,也是思考的东西。 18. 新闻:Dropbox 正在扩大其人工智能助手和搜索引擎 Dash 的可用性。 Dash 连接您所有的工作应用程序并提高您的工作效率。它提供自然语言搜索、人工智能响应和内容组织功能,用户可以 通过新应用程序进行访问并集成到 Dropbox 本身。后来的小鬼rovements 包括 Mobius Labs 提供的多模式功能以及通过 MCP 服务器进行的应用内搜索。芮平:N个应用之间“找东西”的焦虑是否应该通过应用N+1来解决? 19. 新闻:OpenAI 的 Sora 团队预览了“Pet Cameo”功能,该功能展示了将用户的宠物添加到生成视频模型的场景中的能力。更多使用 Sora 进行社交的方式即将推出。评论:对于一个混蛋来说,成为一名导演可能是一件坏事。这不是梦。 3. AI 研究洞察:从“上帝之眼”看地球,通过“真实交易”交易股票赚钱 1. 新闻:Google Research 宣布更新并扩展了对 Google Earth AI 的访问,包括发布新图像和基于人口的模型。我们还推出了由 Gemini 提供支持的地理空间推理代理。该代理可以连接卫星、人口和环境信号来回答复杂的现实问题(风暴风险、脆弱社区等)。谷歌研究报告称,该代理的表现对地观测任务达到SOTA水平,并且可以通过合并多个模型来改进预测结果。芮平:这只是针对AI。 《上帝视角》,游戏《文明》的真人版。 2.消息:DeepSeek在HKU AI-Trader项目中击败了GPT、Claude、Gemini等全球最好的模型,成为可以在真实美股市场上实现独立盈利的AI交易系统。这代表着人工智能在金融市场应用的重大突破。这意味着通过 DeepSeek 赚钱的速度比直接购买流行的美股基金(QQQ)快 8 倍,比第二大 AI 模型快 4 倍。这对基金经理来说有多尴尬? 4、AI业务与政策:资本撑腰疯狂赚钱,群众抵制用电 1、新闻:Meta宣布AI部门裁员600人。裁员他们主要针对的是 Supe 的 FAIR(基础人工智能研究)职位智能研究院。与此同时,Meta 正在加大通用人工智能 (AGI) 研究的招募力度。 Meta 人工智能总监王涛表示,此举旨在创建一个更加敏捷、高效的团队,专注于开发可扩展的模型。芮成钢点评:聚焦“超级智能”。 2.新闻:IBM与Groq公司宣布建立合作伙伴关系,共同推进全球智能化。 IBM 使用 Watsonx Orchestrate 来开放 GroqCloud 推理服务,以实现低延迟代理工作流程。合作计划包括将 vLLM 和 Groq 的 LPU 架构与 Red Hat 集成,并支持 Groq Cloud 上的 IBM Granite 模型。点评:历史悠久的巨头与前沿建筑的联手。 3.Nnews:OpenAI 宣布收购 Software Applications,这是一家由几位苹果高级员工创立的初创公司。该公司正在致力于为 Mac 创建基于人工智能的用户界面。作为此次收购的一部分,OpenAI 将将 Software Applications 创建的 AI 助手 Sky 集成到 ChatGPT 中。这包括产品与 macOS 的集成能力及其产品设计理念。同时,整个软件应用团队加入OpenAI。此次交易的具体财务条款并未披露。犀利评论:“向野蛮人学习,获得控制他们的技能。” 4.新闻:通用汽车宣布,谷歌的 Gemini AI 助手将从 2026 年开始集成到其车辆中。Gemini Assistant 可通过 OTA(无线)更新直接连接到车辆的导航和诊断系统,在配备 OnStar 的车型上使用。通用汽车的目标是将其开发为完全定制的通用汽车 AI 界面,以改进 驾驶员的安全性和舒适性。锐评:未来,你开车时,不仅有“安吉星”客服,还有“全能”的AI副驾驶。 5. 新闻:Stability AI 与艺电合作开发游戏工具。引入人工智能图像模型和AI创意工具将EA的游戏内容工作流程添加到队列中。这表明稳定性AI在企业级创意工具领域的不断进步。锐评:未来NPC、游戏场景都可以“一键生成”。 6、消息:原生人工智能内容创作平台LiblibAI近日完成由红杉中国、华人文化资本和领先互联网公司战略投资armlogic共同领投的1.3亿美元(约合人民币9.2亿元)B轮融资。这是今年国内人工智能应用领域最大的公开融资,超过了此前由玛纳斯以5亿美元(约合人民币35.6亿元)估值完成的8000万美元(约合人民币5.7亿元)贷款纪录。 LiblibAI仅2024年就完成三轮融资,累计融资数亿元。点评:AI应用卡车终于来了,“米”7. 新闻:Netflix 在第三季度财报电话会议上宣布了对生成人工智能的“大规模承诺”。首席执行官 Ted Sarandos 强调了人工智能在加速脚本和视觉效果 (VFX) 方面的积极作用,预计到 2026 年成本将降低 15% 至 20%。Netflix 将人工智能视为在饱和市场中获得竞争优势的工具,并相信人工智能工具可以 用于提高内容创建、个性化推荐和生产效率。批评评论:Netflix 的行动旨在激怒好莱坞工会。 8. 新闻:据《纽约时报》报道,全球范围内对人工智能数据中心的抵制正在加剧。这些数据中心给当地电网和水源带来巨大压力,墨西哥停电和智利缺水引发抗议。智利政府在投资人工智能方面面临困境, 讨论为技术中心提供数十亿美元的补贴以支持经济发展,同时面临公众对耗尽数据中心的愤怒三资源。评论:人工智能数据中心是9。新闻:Meta 与 Blue Owl Capital 组建 270 亿美元的合资企业,为 Hyperion AI 数据中心提供资金。 Meta与Blue Owl Capital管理的基金成立了一家合资公司,共同开发路易斯安那州的Hyperion数据中心园区,其中Blue Owl拥有80%的股份,Meta拥有20%的股份。该交易凸显了建设人工智能基础设施所需的巨额资金。瑞平:即使你没有足够的钱,你仍然可以找到人来帮助你。 10. 新闻:英国人工智能安全研究所发布了临时《高级人工智能安全国际科学报告》。该报告由来自世界各地的 74 名人工智能专家共同撰写,旨在为即将举行的峰会上的多边政策讨论提供信息。为政策辩论提供信息。本报告总结了当前对常见人工智能和风险管理技术的理解。点评:74位专家就AI风险进行“咨询”,战况相当激烈。 11.新闻:特斯拉正式宣布Cyber​​Cab将于2026年第二季度开始量产。该公司首席执行官埃隆·马斯克在财报电话会议中表示:“产能扩张的最大来源将是Cyber​​Cab,该车将于明年第二季度投入生产。该车经过全面优化,专为完全自动驾驶而设计。事实上,它没有方向盘或踏板,真正实现了运营成本的全面优化。”迈尔斯。 《批判评论:这次又会是狼人男孩的故事吗?》 5.关于AI的观点和文章:特斯拉前老板给超级智能还N次的事实泼了一盆冷水。9新闻:特斯拉人工智能和自动驾驶部门(Autopilot)前负责人Andrei Karpathy近日在接受Dwarkesh采访时评论了AI发展的时间线和进展 硅谷著名科技播客主持人帕特尔的言论引发了热议。卡帕斯表示,人工智能代理需要大约 10 年的时间才能完全达到人类员工的水平。他认为,人工智能体目前缺乏足够的智能、多模态技能、计算能力和记忆力来达到真正实用的水平。有些人认为他是在反驳人工智能乐观主义者,但他发布了续集而不是“奇点”,他说:“我认为这就像一个社会自动化过程……我觉得随着时间的推移,很多事情都会自动化。超级智能是这种趋势的推断。”卡帕斯对人工智能进步的推理是基于自动驾驶汽车开发过程中吸取的惨痛教训。改进人工智能的每一步都比上一步困难得多。 “这是一个 9.C 齿轮。每个额外的 9(即 90%、99%、99.9% 等)都需要相同的工作量。这意味着创建一个演示并且有 90% 的机会提供该功能。“只是……第一个 9。然后你需要第二个 9、第三个 9、第四个 9,然后是第五个 9。” Rui 的评论:AI9点到9点的路上喘着粗气。(陈晨)

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注