MLX框架的开发者Awni Hannun发布了... 蚁工厂 2025-01-13 03:36:51 MLX框架的开发者Awni Hannun发布了一个他在两台M2 Ultras上跑DeepSeek v3的3bit量化版本的视频。速度能达到每秒17个token。671B 的大模型也可以跑了