-
-
Agent Instruct:生成高质量合成数据的AI Agent
Agent Instruct是一个专门用于生成高质量合成数据的人工智能Agent,通过创新的生成教学方法,自动完成数据转换、清洗、优化,为模型训练提供高质量的数据,从而提升模型性能。论文地址:https://arxiv.org/abs/2407.03502- 398
- 0
-
aiOla开源Whisper-Medusa语音模型,推理效率快50%
aiOla开源了最新语音模型Whisper-Medusa,推理效率比OpenAI的模型快50%。采用了多头注意力机制,并行计算方法,加快模型推理效率,同时保持性能和准确率。适用于多种行业的音频转录、识别等应用。- 591
- 0
-
-
AI投资趋势及挑战:数据基础设施、基础模型和准确性的关键领域
了解当前AI投资趋势和挑战,包括数据基础设施改善、基础模型导航和准确性优先考虑。探讨CIO和技术领导者在面对这些关键领域时的关注点。- 143
- 0
-
Octopus V4-3B:功能性token整合开源模型的语言模型
了解Octopus V4-3B模型,采用功能性token整合开源模型,优化语言处理任务,提高精度和性能。NEXA AI的创新方法带来了新的AI开发趋势,值得关注。- 665
- 0
-
DCMHA:提升Transformer核心机制注意力,让小模型能打两倍大的模型!
ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA),从根本上提升了模型的表达能力。DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。- 736
- 0
-
大模型与AI发展趋势解析
本文分析了大模型及AI发展趋势,包括LLM、GenAI等相关概念,探讨了大模型领域的发展趋势和新秀企业的崛起。同时解析了大模型领域的模型精准度优化对比软件工程中的代码质量要求的不同。- 715
- 0
-
Deepseek发布了V2版本的模型,技术路线和性能优化详解
深度求索Deepseek近日发布了v2版本的模型,沿袭了1月发布的 Deepseek-MoE(混合专家模型)的技术路线,采用大量的小参数专家进行建模,同时在训练和推理上加入了更多的优化。V2模型在MMLU多选题benchmark上取得第二名,成本效率方面节约了42.5%的训练成本,推理时的KV-cache显存占用减少了93.3%,吞吐量提升到了原来的5.76倍。详情请查看技术报告。- 598
- 0
-
蒙特卡洛树搜索在大语言模型中的应用及性能提升
阿里研究人员最新研究表明,利用蒙特卡洛树搜索技术在大语言模型中实现了数学推理任务的性能提升,无需人工标注高质量数据,论文详细介绍了AlphaMath的技术路线和实验结果。- 477
- 0
-
扩散模型蒸馏算法:Hyper-SD的优化和加速
本文介绍了一种新型的扩散模型蒸馏框架——Hyper-SD,该框架结合了轨迹保持和重构策略的优点,实现了加速和优化的扩散模型推理过程,显著提升了图像生成和视频生成的性能。同时,该框架还在实验和用户评测中取得了卓越的成果。- 157
- 0
-
大语言模型压缩技术:量化、剪枝、蒸馏详解
了解大语言模型压缩技术中的量化、剪枝和蒸馏,减小模型文件大小、提高运行速度,拓展应用场景,适用于手机、嵌入式设备等领域。详细介绍了量化技术的原理、优势和不同策略,对于大语言模型的优化具有重要意义。- 458
- 0
-
深度学习模型权重的关键作用及优化方法
本文探讨了深度学习模型中权重的关键作用及优化方法,帮助理解和应用复杂的模型结构,涵盖了权重管理、泛化能力、特征提取、权重微调、性能影响以及模型部署和跨框架优化等内容。- 813
- 0
-
Animagine XL 3.1:动漫图像生成新体验!
AICMTY.com向大家介绍最新的AIGC开源项目Animagine XL 3.1,旨在为用户提供更加优化和强大的动漫图像生成体验。通过扩展训练数据和引入新特殊标签,模型在性能和功能上达到新的高度。用户可以通过SeaArt和Huggingface平台获取早期版本,期待正式版的到来!- 450
- 0
-
AI21 Labs发布生产级Jamba模型,超长上下文处理性能翻倍
AI21 Labs最新发布的Jamba模型,基于Mamba架构与Transformer相结合,实现了超长上下文处理性能的大幅提升,是人工智能领域的重要突破。- 352
- 0
-
大语言模型自我对齐新方法:社会模拟框架MATRIX
本研究介绍了一个名为MATRIX的社会模拟框架,以解决大语言模型在对齐人类社会价值观方面的挑战。通过模拟社会场景,该框架能够帮助模型自我评估并修正其回答,从而确保其对齐人类社会价值观。该方法为大语言模型的发展和道德探索提供了新的可能。- 94
- 0
-
SliceGPT:稀疏化大语言模型的最新技术解决方案
介绍了SliceGPT技术,能够在模型训练完成后对大语言模型进行稀疏化处理,降低模型参数并提高计算效率。该技术通过权重矩阵的切分和正交矩阵变换,成功压缩了LLAMA-2、OPT和Phi-2等模型高达30%,同时保持了在下游任务中的竞争性能。- 735
- 0
-
如何利用Temp-Lora模块提高大模型长文本能力
本文介绍了一种名为Temp-Lora的新方法,通过使用模型参数存储大量上下文信息,实现了显著提高模型长文本任务质量和降低计算成本的效果。通过实验证明,该方法能够在不扩展上下文窗口的情况下,提高长文本翻译质量,并兼容并增强现有的长文本生成方法。- 393
- 0
-
DeepSeek MoE:首位国产选手,性能优异且计算量节约
深度求索团队最新开源的160亿参数专家模型DeepSeek MoE表现优异,计算量节约,成为国产选手中的佼佼者。了解其创新架构和性能表现,点击了解更多。- 547
- 0
-
StreamingLLM:解决大型语言模型多轮对话挑战的高效方案
了解如何通过StreamingLLM和TensorRT实现大型语言模型在多轮对话场景下的高效推理性能优化,解决了注意力机制和KV缓存的挑战,提升了模型生成效果和计算效率。- 616
- 0
-
-
WikiChat:基于维基百科的幻觉问题解决聊天机器人
近日斯坦福研究人员发布了WikiChat,首个解决幻觉问题的聊天机器人,基于维基百科训练,优化了模型准确性和对话性指标,开源论文和代码供大家研究。- 873
- 0
-
MIT博士生发现:简单修剪Transformer特定层显著提高模型性能
MIT博士生发现,通过对Transformer特定层进行简单修剪,即可在缩小模型规模的同时显著提高模型性能,适用于文本理解和强化学习任务。- 751
- 0
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!