Month: April 2025

微软开源DeepSeek级BitNet 2B模型:速度翻倍,内存仅为Qwen 1/6

近期,微软的科研团队自豪地宣布,他们已成功研发出一款前所未有的原生1-bit人工智能巨擘——BitNet b1.58 2B4T。这款模型以其精简至0.4GB(即约409.6MB)的内存占用,却能在包括苹果M2芯片在内的多种CPU上流畅运行,令人瞩目。据评估,BitNet b1.58 2B4T在执行各类任务时,其表现与同等规模的开源全精度大语言模型难分伯仲,而在计算效率上更是独占鳌头,实现了内存占用、能耗以及解码延迟的大幅缩减。 值得一提的是,这款模型现已全面开源,遵循MIT许可协议,向公众敞开怀抱。在Hugging Face平台上,微软贴心地提供了BitNet b1.58 2B4T的多样化模型权重版本,涵盖了压缩至1.58 bit的高效权重、BF16格式的核心权重,以及GGUF格式的模型权重,以供用户按需选择。 网友们对这款模型的反响热烈,纷纷发表见解。“若它真能与全精度模型性能比肩,那简直是个奇迹!”一位网友感叹道。另一位则赞誉道:“BitNet b1.58 2B4T的问世,无疑是大型语言模型(LLM)发展历程中的一个璀璨里程碑,其卓越的性能与效率,令人叹为观止。 值得一提的是,BitNetb1.58 2B4T 成果背后这支来自 Microsoft Research 的技术团队,全员都是中国人。 据了解,论文一作马树铭(Shuming Ma)是北京大学电子工程与计算机科学学院(EECS)的一名硕士研究生,目前处于研三阶段,从事自然语言处理和机器学习方面的研究工作。二作王鸿钰(Hongyu Wang)是中国科学院 (CAS) 的三年级博士生,2021 年 8 月至今在微软亚洲研究院 GenAI 团队担任研究实习生, 在韦福如(Furu Wei )和马树铭的指导下开展工作。 韦福如现任微软杰出科学家,领导团队从事基础模型、自然语言处理、语音处理和多模态人工智能等领域的研究。近年来,他还致力于领导和推进通用型人工智能的基础研究和创新。韦博士还担任西安交通大学和中国科技大学兼职博士生导师,香港中文大学教育部 – 微软重点实验室联合主任。此前,他分别于 2004 年和 2009 年获得武汉大学学士学位和博士学位。 1 性能与同等参数模型相当,速度甚至是其两倍 BitNet b1.58 2B4T,一款拥有20亿参数(这些“参数”可视为“权重”的另一种表述)的开创性BitNet模型,其在浩瀚的数据海洋中遨游——一个包含了4万亿个token的数据集,这一数字大致相当于将3300万册书籍的内容融入其中。经过这番洗礼,BitNet b1.58 2B4T在语言理解、数学逻辑、编程技巧及对话交互等多个维度接受了严苛的基准测试考验,其性能与同类规模模型旗鼓相当,并且在效率上实现了质的飞跃。 值得注意的是,BitNet b1.58 2B4T并未能在所有对决中全面碾压其他20亿参数的竞争对手,但其展现的实力确实令人瞩目。研究团队的测试揭示,该模型在ARC-Challenge、OpenbookQA、BoolQ、GSM8K(专注于小学难度数学问题的题库)以及PIQA(旨在衡量物理常识推理能力的测试)等一系列高标准基准测试中,成功超越了Meta的Llama 3.2 1B、谷歌的Gemma 3 1B以及阿里巴巴的Qwen 2.5 1.5B,展现出了非凡的竞争力。 图:BitNet b1.58 2B4T 与类似尺寸(1B-2B […]

Claude 3.7 Sonnet超全使用指南:8种方法,白嫖到付费全都有!

Claude 3.7 Sonnet,Anthropic 本周刚刚发布的最新模型,代码之王,当然其他方面也不弱。 它的殊荣很多,比如全球首个混合推理模型:一个模型,两个大脑。对于一般任务,它可以快速响应;对于困难任务,它可以先思考(推理),再回答。 甚至,Claude 3.7 Sonnet 在 LiveBench 上的排名已经“出道即巅峰”,超越 o3-mini-high、o1、grok 3 以及 deepseek-r1 等一众大佬飞升至了第一名。 这么强的模型,怎么用? 今天就来盘点 8 个使用 Claude 3.7 Sonnet 的方法,有官方的,有第三方接入 API 的;有收费的,有免费可用的;有专注于 AI 搜索的,有专注于编程的。 排名不分先后,集合! 1、Claude Claude 官网的必然要放在第一位。 免费可用,使用次数(rate limit)对于尝鲜来说绰绰有余,甚至完成一个小任务也够;网页(claude.ai)、iOS 和安卓 App 都可以用,历史数据还能云端同步。 然而,免费当然意味着功能上的限制,比如 Claude 3.7 Sonnet 推理模式就只对付费用户开放。上下文长度和输出长度也有限制。此外,对 IP 要求高,有封号风险,不过近期还好。有 使用地址:claude.ai 注意事项:如出现APP unavailable 情况点此解决 2、Salck 大佬通过Claude官网的API在Slack配置的一个应用,加入他的Slack工作区就能直接使用Claude3模型。而且工作区里面还有OpenAI模型可以使用。目前Slack可以在电脑、手机、网页使用,可以说是很方便了。 注意,加入工作区一般需要使用国际邮箱,用微软的outlook邮箱就好了。首次加入需特殊环境(需自行准备)。加入完进入工作区在频道@Claude3 应用即可。 工作区加入链接:https://h5ma.cn/jxn 3、Poe Poe 的优势是背靠大厂(北美知乎 Quora),稳定可靠。 可白嫖,每用户每天免费赠送3000积分,每次对话消耗不等的积分,具体依模型而定。 但由于 Poe 几个月前更新了积分消耗机制,和顶级模型对话消耗的积分变多。如果想白嫖就多准备几个账号,换号使用,但是需要海外环境才能使用的喔。 使用地址:poe.com 4、chatshare 国内最大的镜像站,目前接入Claude、OpenAI、DeepSeek等模型。Claude账号大概有100多个,随时补号。主要特点的话,就是国内可以使用。其他就没什么了。 使用的话需要注册登录,使用激活码订阅完成就能使用全系列模型。不多做介绍,具体看下面网站介绍吧。 […]

Claude 3.7 Sonnet 全面体验:免费渠道、API 详解、开启推理

近日,Anthropic 公司推出了 Claude 3.5 Sonnet 模型的升级版——Claude 3.7 Sonnet。尽管在版本号上只增加了 0.2,但这次更新在性能和功能上都带来了一些变化。距离 Claude 上一次模型更新已经过去了四个多月,在快速发展的人工智能领域,这已经算得上是一段不短的时间。 业界普遍认为,如果模型在架构上没有突破性进展,通常不会直接升级到 4.0 版本。 免费使用渠道 站点名称 访问地址 (部分需科学上网) 模型版本 推理模式 上下文窗口 (tokens) 最大输出 (tokens) 联网功能 每日限制/费用 特点 Claude 官网 https://claude.ai/ 3.7 Sonnet 非推理 约 32K 约 8K 不支持 免费用户有限量, 付费用户Token限制(Normal/Extended两档) 官方平台,免费用户额度较少,付费用户也有限制。 lmarena https://lmarena.ai/ 3.7 Sonnet/32k Thinking 非推理/推理 8K / 32K 2K (最大 4K) 不支持 貌似不限量 提供非推理和 32k […]

Claude 国内最新使用指南~ (支持 Claude 3.7 Sonnet,稳定好用)【2025年4月更新】

更新:2025/04/14 在国内轻松使用 Claude 中文版 教程,无需翻墙,支持 Claude 3.7、Claude 3.5 及中文版功能 本指南提供全面的 Claude 国内使用指南,包括国内可用的 Claude 网页版、Claude 国内入口、Claude 官网平替 和详细使用教程,帮助您快速使用上 Claude~ 什么是 Claude 中文版? Claude 中文版 是 Anthropic的 Claude 模型的中文版本,专为中文用户设计,提供更流畅、更精准的 AI对话体验。 相较于官网,Claude 中文版在以下方面更适合国内用户: 国内推荐 Claude 中文版镜像网站 以下是我们精选的国内优质 Claude 中文版镜像网站,无需翻墙即可使用: 网站链接 网站名称 支持功能 chat.yixiaai.com Claude 中文版 支持 Claude-3.7、Claude-3.5、GPT-o1、o3及Groq-3,支持 AI绘画,扫码就能用~ chat.lanjing.pro Claude 中文站 支持 Claude 3.7 sonnet、Grok 3、GPT-4o、o1、o3 及 DeepSeek R1 最先进的模型,无限使用~ chat.lify.vip Claude 镜像网站 支持 Claude-3.7、Claude-3.5、GPT-o1、o3及Groq-3,AI文件、AI […]

Claude 3.7 Sonnet上线,吊打deepseek!(附免费体验地址)

昨天不到9点就睡觉了,早上起来一看发生了三件大事 体验地址:chat.qwen.ai DeepEP 是一款由 DeepSeek AI 开发的开源工具,专门用于提升混合专家模型(MoE)的通信效率。MoE 模型类似于一个分工明确的团队,每个“专家”负责处理不同任务。当模型规模庞大时,这些专家分布在多个计算机或 GPU 上,DeepEP 的作用是确保它们能快速协作。 说人话想象班级大扫除时,老师将任务分配给每个同学:有人擦黑板,有人扫地。DeepEP 就像一位高效的组长,确保工具(数据)快速传递,避免有人等待,让所有人同时高效工作,提前完成任务。 一、claude3.7的强悍 来聊聊今天要介绍的Claude 3.7 Sonnet,之前的claude3.5 Sonnet作为cursor官方认证的最佳模型,现在的升级版不能说进步一点点,只能说遥遥领先。 特别是在数学、物理、指令遵循、编码和其他许多任务上都是独一档的存在。 附上几个case 1.prompt:Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: […]

Scroll to top