web

纯C文件推理Llama 2

这段项目可以让你通过PyTorch从头开始训练Llama 2 LLM架构模型，然后将权重保存到一个原始二进制文件中，再将其加载到一个仅有500行的简单C文件（run.c）中，该文件推断模型，目前仅支持fp32。在作者的云Linux开发平台上，一个维度为288的6层6头模型（约15M个参数）推断速度约为每秒100个令牌；在M1 MacBook Air上推断速度也差不多。作者有些惊喜地发现，采用这种简单方法，可以以高度交互的速度运行相当大的模型（几千万个参数）。

参考文献：
https://github.com/karpathy/llama2.c

作者：阿升
来源：mdnice.com/writing/6f98f171b14e4050bf627afe59ccb82a

0

2023-07-26

0 个评论

要回复文章请先登录或注册

纯C文件推理Llama 2

0 个评论

发起人