语言大模型

ICLR 2024｜ReLU激活函数的反击，稀疏性仍然是提升LLM效率的利器

论文题目： ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models 论文链接： https://arxiv.org/abs/2310.04564 参数规模超过十亿（1B）的大型语言模型（LLM）已经彻底改变了现阶段人工…

生成式语言大模型压缩技术思考——以ChatGPT为例

ChatGPT引领了生成式语言大模型的应用与技术热潮，首先简单回顾ChatGPT应用范式：将其应用于指定的下游任务时（如知识问答、翻译、编码），ChatGPT需要经历三个阶段的训练（增强人类语境的猜想）&…

函数调用实现小米汽车智能语音助手

上周小米汽车发布，其中有一个特色功能就是智能语音，小爱同学整合了语音大模型，实现智能座舱体验。雷老板的PPT也演示了，一些口语化的对话就能触发各种指令，无论是开空调、播放音乐，还是找手机、识别前方汽…

chatglm2-6b-sft chatglm2-6b, chatglm-6b微调/LORA/推理源码地址：https://github.com/yongzhuo/ChatGLM2-SFT 踩坑 1. torch>2.0, 否则微调会报很多错误(单纯推理可以用低版本); 2. tokenizer.encode输出为 [gMASK, sop, 真实文本token]64789 {str} [MASK…