全部标签

语言建模

无注意力架构：Mamba 和 StripedHyena模型的进展及未来趋势

了解最新的无注意力架构进展，包括Mamba和StripedHyena模型，以及对2023年无注意力模型发展的详细介绍。探讨了注意力和循环神经网络在语言建模中的不同计算方式，以及未来架构的发展趋势。
AI资讯
- 197
- 0
机器之心2月19日
上海人工智能实验室发布新一代大语言模型InternLM2

上海人工智能实验室与商汤科技联合香港中文大学和复旦大学发布新一代大语言模型InternLM2，经过2.6万亿token高质量语料训练，支持200K超长上下文，性能表现优异。同时启动书生·浦源大模型挑战赛，致力于推动大模型在各行业的应用落地。
AI资讯
- 331
- 0
新智元1月17日
从零开始构建RoBERTa模型 – 一个SEO优化教程

本教程将指导您如何从零开始构建一个RoBERTa模型，并使用SEO优化技巧来提升文章的曝光度和排名。我们将详细介绍使用transformer构建工具包、预训练分词器以及语言建模的步骤和技巧。通过完成本教程，您将具备构建强大的transformer模型的知识和技能，以应对工业4.0时代的挑战。
AI教程
- 75
- 0
数据智能老司机23年11月29日
开源语言大模型的发展历史与机制概述

本文概述了开源语言大模型的发展历史和机制，包括GPT-3的影响、对齐研究的催生以及语言建模的目标和基本原理。
AI教程
- 470
- 0
OneFlow一流科技23年11月27日
代码语言模型发展综述：从GPT到Codex的进化历程

了解预训练Transformer在代码处理方面的最新进展，从GPT到Codex的演进历程。探索代码语言模型的发展及其在软件工程中的应用。
AI资讯
- 605
- 0
机器之心23年11月22日
RetNet：Transformer继任者，推理速度提升8倍，内存占用减少70%

RetNet是Transformer的继任者，推理速度提升8倍，内存占用减少70%，是一项重大的大模型基础架构创新。
AI教程
- 447
- 0
量子位23年11月18日