全部标签

大模型推理

手机端大模型推理引擎PowerInfer-2.0解决内存与算力挑战

了解手机端大模型推理引擎PowerInfer-2.0如何解决内存不足与算力不足的挑战，实现在智能手机上快速推理，保障AI模型性能与隐私安全。
AI资讯
- 787
- 0
量子位6月12日
阿里云通义千问GPT-4级主力模型Qwen-Long降价至0.0005元/千tokens

阿里云通义千问推出GPT-4级主力模型Qwen-Long，API输入价格降至0.0005元/千tokens，降幅达97%。该模型性能对标GPT-4，价格远低于其他厂商模型，将加速AI应用的爆发。这里介绍了Qwen-Long的性能优势、阿里云的推理成本和性能优势，以及云上多模型调用和数据安全保障的优势。
AI资讯
- 889
- 0
阿里云5月21日
大模型推理部署框架设计 – DB-GPT多模型架构解读与未来规划

本文介绍了DB-GPT多模型推理部署框架的设计目标、架构解读、多模型部署、运维与可观测性以及未来规划，为AIGC应用探索和生产落地提供了思路与解决方案。
AI教程
- 0
- 0
程点2月18日
新技术代码链（CoC）提升大模型推理能力

最新技术代码链（CoC）结合编码逻辑与自然语言理解，提升了大模型基于代码的推理能力，对机器学习和人工智能领域具有重要意义。论文详细介绍了CoC的原理和优势，以及与其他推理方法的比较。
AI资讯
- 829
- 0
新智元23年12月25日
PyTorch团队开发GPT-fast，大模型推理速度提升10倍的方法揭秘

了解PyTorch团队如何通过GPT-fast项目将大模型推理速度提升10倍，涉及GPU量化和推测性解码等方法，助力大型语言模型更高效运算。
AI资讯
- 541
- 0
量子位23年12月3日
昇腾CANN 7.0 黑科技：大模型推理部署技术解密

本文解密了昇腾CANN 7.0黑科技，介绍了大模型推理部署技术，包括自动并行切分、KV Cache机制、量化技术和FlashAttention融合算子的优化，旨在提升AI基础设施的推理性能。
AI教程
- 738
- 0
华为云开发者联盟23年11月20日
大模型推理框架概述：vLLM、HuggingFace TGI 和 FasterTransformer

本文概述了业界知名的大模型推理框架 vLLM、HuggingFace TGI 和 FasterTransformer，分析了它们的主要特性和性能对比，适用场景和存在的问题。
AI教程
- 58
- 0
吃果冻不吐果冻皮23年11月19日