第114期
2025-03-22 (每周六发布)
5 有趣:
- 新 GPU 阵容包括 2025 年底推出的 Blackwell Ultra、2026 年推出的 Vera Rubin 和 2028 年推出的 Feynman,每款 GPU 都有望大幅提升性能
- 首个开放的仿人机器人基础模型 Isaac GR00T N1,以及用于训练机器人的综合物理人工智能数据集
- 与谷歌 DeepMind 和迪斯尼合作的机器人物理引擎牛顿也首次亮相,非常可爱的星球大战风格的机器人 Blue 登台亮相
- 全新的 DGX Spark 和 DGX Station 为个人工作站带来了数据中心级的人工智能计算,黄称其为 "人工智能时代的个人超级计算机"
- Nvidia 还宣布与汽车制造商通用汽车(GM)建立新的合作伙伴关系,计划为该公司打造首支自动驾驶汽车车队。
II. TxAgent 代理
哈佛大学和麻省理工学院的研究人员发布了 TxAgent,它是一个人工智能代理,利用多步推理和实时生物医学知识检索为患者生成可信的个性化治疗建议,可为医生提供更安全、更有针对性的治疗。
哈佛大学和麻省理工学院的研究人员发布了 TxAgent,它是一个人工智能代理,利用多步推理和实时生物医学知识检索为患者生成可信的个性化治疗建议,可为医生提供更安全、更有针对性的治疗。
III. Google Gemini 更新
- 推出个性化功能: 可自动将你的搜索历史和聊天内容添加到上下文,同时还可以添加需记忆的内容以便后续使用
- 添加 Canvas 互动空间: 可用于完善文档和代码,并实时显示更改内容,类似 Claude Artifacts,同时还集成了 NotebookLM
IV. 值得关注的 LLM 小模型
- Phi-4: 微软在2月26号发布 Phi-4-multimodal 多模态语言模型,5.6B 参数,128k 上下文,能够同时处理语音、视觉和文本,非常适合部署在移动设备或者低性能的设备上
- Mistral Small 3.1: 多模态语言模型,24B 参数,128k 上下文
- Command A: 111B 参数,256k 上下文
V. 可弯曲传播的声音
研究人员发明了自弯曲超声波束,可将声音绕过障碍物,在特定的目标位置汇合,类似光学透镜弯曲光线的原理。
其潜在的应用非常广泛,比如在公共场所不用带耳机即可提供个性化的音频;图书馆可以让学生在不打扰他人的情况下通过语音课程学习;在汽车中,乘客可以听音乐,而不会分散驾驶员听导航指示的注意力;办公室和军事环境也可以受益于用于保密对话的局部语音区;还可用于消除指定区域的噪音,创建安静区域以提高工作场所的注意力或减少城市噪音污染
4 工具:
I. LiveKit
一个面向开发人员构建实时媒体应用的开源平台。它可以轻松集成音频、视频、文本、数据和人工智能模型,同时提供基于 WebRTC 的可扩展实时基础设施。OpenAI 的实时语音对话就是使用的该平台在 LLMs 和用户之间传输音频数据
一个面向开发人员构建实时媒体应用的开源平台。它可以轻松集成音频、视频、文本、数据和人工智能模型,同时提供基于 WebRTC 的可扩展实时基础设施。OpenAI 的实时语音对话就是使用的该平台在 LLMs 和用户之间传输音频数据
3 文章:
III. 为什么你几乎做什么都会失败?
如果你想了解为什么大多数人都一事无成,那么这篇文章值得你看看,至少我中枪了。
如果你想了解为什么大多数人都一事无成,那么这篇文章值得你看看,至少我中枪了。
当他们遇到创业、结识新朋友或改变整个生活的机会时,他们的潜意识反应是:听起来像是骗局,我不能这么做,因为...,但如果不起作用呢?
你放弃得太早了,你没有学会如何将失败视为通往成功的唯一途径。
2 资源:
1 订阅:
当我把计划从 "赚大钱和捐款 "转为 "建造重要的东西 "时,有一件事让我很吃惊,那就是我的工作效率提高了很多。
我想,如果我是通过从事智力上有趣的工作来赚取美元,我就会保持动力。结果发现并非如此
-----
以上就是本期的全部内容啦! 感谢阅读
最后,请照顾好自己(包括精神上、身体上、情感上)
我们下周见
-----
最后,请照顾好自己(包括精神上、身体上、情感上)
我们下周见
-----
如果您喜欢本周刊, 可以通过以下方式来支持它:
本周刊采用 CC BY-SA 4.0 许可协议进行许可。
我的观点仅代表我个人,与任何附属机构无关。内容无恶意、无广告,均由我主观决定发布。为尊重您的隐私,不进行任何跟踪。
我的观点仅代表我个人,与任何附属机构无关。内容无恶意、无广告,均由我主观决定发布。为尊重您的隐私,不进行任何跟踪。