Day: 2025年4月21日

微软开源DeepSeek级BitNet 2B模型:速度翻倍,内存仅为Qwen 1/6

近期,微软的科研团队自豪地宣布,他们已成功研发出一款前所未有的原生1-bit人工智能巨擘——BitNet b1.58 2B4T。这款模型以其精简至0.4GB(即约409.6MB)的内存占用,却能在包括苹果M2芯片在内的多种CPU上流畅运行,令人瞩目。据评估,BitNet b1.58 2B4T在执行各类任务时,其表现与同等规模的开源全精度大语言模型难分伯仲,而在计算效率上更是独占鳌头,实现了内存占用、能耗以及解码延迟的大幅缩减。 值得一提的是,这款模型现已全面开源,遵循MIT许可协议,向公众敞开怀抱。在Hugging Face平台上,微软贴心地提供了BitNet b1.58 2B4T的多样化模型权重版本,涵盖了压缩至1.58 bit的高效权重、BF16格式的核心权重,以及GGUF格式的模型权重,以供用户按需选择。 网友们对这款模型的反响热烈,纷纷发表见解。“若它真能与全精度模型性能比肩,那简直是个奇迹!”一位网友感叹道。另一位则赞誉道:“BitNet b1.58 2B4T的问世,无疑是大型语言模型(LLM)发展历程中的一个璀璨里程碑,其卓越的性能与效率,令人叹为观止。 值得一提的是,BitNetb1.58 2B4T 成果背后这支来自 Microsoft Research 的技术团队,全员都是中国人。 据了解,论文一作马树铭(Shuming Ma)是北京大学电子工程与计算机科学学院(EECS)的一名硕士研究生,目前处于研三阶段,从事自然语言处理和机器学习方面的研究工作。二作王鸿钰(Hongyu Wang)是中国科学院 (CAS) 的三年级博士生,2021 年 8 月至今在微软亚洲研究院 GenAI 团队担任研究实习生, 在韦福如(Furu Wei )和马树铭的指导下开展工作。 韦福如现任微软杰出科学家,领导团队从事基础模型、自然语言处理、语音处理和多模态人工智能等领域的研究。近年来,他还致力于领导和推进通用型人工智能的基础研究和创新。韦博士还担任西安交通大学和中国科技大学兼职博士生导师,香港中文大学教育部 – 微软重点实验室联合主任。此前,他分别于 2004 年和 2009 年获得武汉大学学士学位和博士学位。 1 性能与同等参数模型相当,速度甚至是其两倍 BitNet b1.58 2B4T,一款拥有20亿参数(这些“参数”可视为“权重”的另一种表述)的开创性BitNet模型,其在浩瀚的数据海洋中遨游——一个包含了4万亿个token的数据集,这一数字大致相当于将3300万册书籍的内容融入其中。经过这番洗礼,BitNet b1.58 2B4T在语言理解、数学逻辑、编程技巧及对话交互等多个维度接受了严苛的基准测试考验,其性能与同类规模模型旗鼓相当,并且在效率上实现了质的飞跃。 值得注意的是,BitNet b1.58 2B4T并未能在所有对决中全面碾压其他20亿参数的竞争对手,但其展现的实力确实令人瞩目。研究团队的测试揭示,该模型在ARC-Challenge、OpenbookQA、BoolQ、GSM8K(专注于小学难度数学问题的题库)以及PIQA(旨在衡量物理常识推理能力的测试)等一系列高标准基准测试中,成功超越了Meta的Llama 3.2 1B、谷歌的Gemma 3 1B以及阿里巴巴的Qwen 2.5 1.5B,展现出了非凡的竞争力。 图:BitNet b1.58 2B4T 与类似尺寸(1B-2B […]

Scroll to top