模型名称 | MOE 架构 | 参数大小 | 激活参数大小 | 上下文长度 | 公司名称 | 发布时间 |
---|---|---|---|---|---|---|
Llama4-maverick | 是 | 402B | 17B | 1M | Meta | 2025-04-06 |
Llama4-scout | 是 | 109B | 17B | 10M | Meta | 2025-04-06 |
Deepseek-R1 | 是 | 671B | 37B | 128K | Deepseek | 2025-01-20 |
Deepseek-V3 | 是 | 671B | 37B | 128K | Deepseek | 2025-01-20 |
Qwen2.5 | 否 | 0.5B-72B | - | 128K | 阿里巴巴 | 2024-09-19 |
Deepseek-v2.5 | 是 | 236B | 21B | 128K | DeepSeek | 2024-09-06 |
Mistral-Large2 | 否 | 123B | - | 128K | Mistral | 2024-07-24 |
Llama3.1 | 否 | 7B 70B 405B | - | 128K | Meta | 2024-07-23 |
Mistral-nemo | 否 | 12B | - | 128K | Mistral | 2024-07-19 |
Gemma2 | 否 | 9B 27B | - | 8K | 2024-06-27 | |
Qwen2 | 否 | 0.5B 1.5B 7B 72B | - | 32K 128K | 阿里巴巴 | 2024-06-15 |
GLM-4 | 否 | 9B | - | 128K 1M | 智谱 AI | 2024-06-05 |
Codestral | 否 | 22B | - | 32K | Mistral | 2024-05-30 |
Yuan2.0-M32 | 是 | 40B | 3.7B | 16K | 浪潮信息 | 2024-05-30 |
Phi3-medium | 否 | 14B | - | 4K 128K | Microsoft | 2024-05-21 |
Yi-1.5 | 否 | 6B 9B 34B | - | 4K | 零一万物 | 2024-05-13 |
Deepseek-v2 | 是 | 236B | 21B | 128K | DeepSeek | 2024-05-06 |
Phi3-mini | 否 | 3.8B | - | 4K 128K | Microsoft | 2024-04-23 |
Llama3 | 否 | 8B 70B | - | 8K | Meta | 2024-04-18 |
WizardLM2 | 是 | 7B 8X22B 70B | 39B | 65K | Microsoft | 2024-04-15 |
Mixtral 8*22B | 是 | 8X22B | 39B | 65K | Mistral | 2024-04-10 |
Gemma1.1 | 否 | 2B 7B | - | 8K | 2023-04-10 | |
Qwen1.5-32B | 否 | 32B | - | 32K | 阿里巴巴 | 2024-04-05 |
Command-R plus | 否 | 104B | - | 128K | Cohere | 2024-04-04 |
DBRX-instruct | 是 | 132B | 36B | 32K | Databricks | 2024-03-27 |
Grok-1 | 是 | 314B | 86B | 8K | X ai | 2024-03-17 |
Command-R | 否 | 35B | - | 128K | Cohere | 2024-03-11 |
Gemma | 否 | 2B 7B | - | 8K | 2023-02-21 | |
Qwen1.5 | 否 | 0.5B-72B | - | 32K | 阿里巴巴 | 2024-02-04 |
LLama2 | 否 | 7B-70B | - | 4K | Meta | 2023-07-16 |
大模型领域跟踪
相关文章