新闻中心
-
11-26【大模型后训练学习】DPO与GRPO专题学习前言✍前面几章我们已经把“大模型架构四件套”(GQA/RoPE/SwiGLU/RMSNorm)和DeepSeek系列摸了个大概,知道了一个LLM从参数形状到注意...
-
11-26Deep Research Agent技术 --通义“狐獴家族”(二)DeepResearchAgent--狐獴家族系列(二)descript在通义“狐獴家族”(一)中,我们系统介绍了WebWalker、WebDancer、Web...
-
11-26【大模型学习】现代大模型架构(一): 组注意力机制(GQA)和 RMSNorm前言✍在大模型论文学习中,相信很多读者和笔者一样,一开始都会有一种感觉:“现在大模型架构都差不多,主要是数据和算力在堆积。”当笔者慢慢总结LLaMA、Qwen、...
-
11-242026春节假期安排解读 2026春节放假政策分析2026年春节将连休9天,从2月15日(腊月二十八)至23日(正月初七),通过调休2月14日和28日两个周六实现,既缓解春运压力又提升团圆质量,同时延长消费窗口...
-
11-198套和13套洗碗机怎么选_不同容量洗碗机选购指南根据家庭人数、厨房空间和餐具类型选择洗碗机容量:1-2人家庭可选8套,4人以上或常聚餐选13套;测量安装空间,确认高度78cm才能安装13套机型;中式大件餐具多...
-
10-12连续发布两款万亿参数模型,蚂蚁 AI 来势汹汹刚刚过去的国庆,各行各业进入放假模式,但大模型行业却一刻也没闲着。过去的半个月,国内外大模型的头部团队有十余款重磅产品发布,但每个团队的产品侧重不同。其中,九月...

