AI工程师阅读清单

  • 量子位
  • 2025-01-17 22:37:55
AI工程师阅读清单

如果你想当 AI 工程师,但不确定从哪里入手,Latent Space 平台为你精心挑选了 50 篇必读论文、模型和博客,涉及 LLM、RAG、智能体、视觉、语音、模型微调等多个领域。

以下是整理后的核心推荐内容,涵盖了 10 大领域,每个领域精选 5 篇关键论文:

1. Frontier LLMs

- GPT系列论文:GPT1到GPT4的发展脉络,以及Codex、InstructGPT等相关模型。
- Claude系列论文:Claude 3和Gemini 1等竞品模型。
- LLaMA系列论文:领先的开放源代码模型,涵盖LLaMA 1、2、3。
- DeepSeek系列:相对开放的模型实验室,涵盖多种模型。
- BERT的应用:尽管BERT在一些任务中已被其他模型取代,但作为工作负载分类模型,它依然很重要。

2. 基准测试与评估(Benchmarks and Evals)

- MMLU:最重要的知识基准,广泛用于测试模型的推理能力。
- MuSR:用于长上下文评估。
- MATH:数学竞赛问题集,用于测试模型在数学推理中的表现。
- IFEval:引导性任务评估的领先基准,适用于instruction-following 任务。
- ARC AGI 挑战:考察模型抽象推理能力的重要基准。

3. 提示工程、ICL与链式思维(Prompting, ICL & Chain of Thought)

- 提示工程综述:总结了许多提示工程相关的研究。
- Chain-of-Thought 与 Tree of Thought:提出了如何通过思考链和回溯方法来增强推理能力。
- Prompt Tuning 与自动提示工程:随着自动提示生成技术的发展,人工提示已不再是唯一选择。

4. 检索增强生成(RAG)

- Meta 的 RAG 论文:介绍了RAG的基本概念。
- MTEB:作为 RAG 评估的标准,虽然该基准有过拟合的问题,但仍然广泛使用。
- GraphRAG:结合知识图谱的 RAG 方法,探索增强信息检索能力。
- RAGAS:OpenAI 推荐的简单 RAG 评估方法。

5. 智能体(Agents)

- SWE-Bench:测试代理模型和代码的基准。
- ReAct:探索工具使用和函数调用的代理模型。
- MemGPT:实现长期代理记忆的一种方法。
- Voyager:Nvidia提出的认知架构模型,提升代理的性能。

6. 代码生成(Code Generation)

- Stack数据集:专注于代码生成的开放数据集。
- Open Code Model 论文:DeepSeek-Coder、Qwen2.5-Coder等开源代码生成模型的研究。
- HumanEval:广泛使用的代码生成基准,用于测试模型的编程能力。
- CriticGPT:识别代码生成中的安全问题。

7. 视觉(Vision)

- CLIP:首个成功的视觉 Transformer 模型,虽然现在有了 BLIP 系列,但 CLIP 仍然重要。
- SAM 与 SAM 2:图像和视频分割的基础模型。
- 视觉语言模型(VLM)工作:包括 Meta 的 Flamingo 和 Chameleon 等。

8. 语音(Voice)

- Whisper:成功的语音识别模型,支持多种语音输入。
- AudioPaLM:Google的语音模型,展示了 PaLM 在语音任务中的应用。
- Kyutai Moshi:高质量的全双工语音模型。
- OpenAI Realtime API:提供语音与实时交互的 API 接口。

9. 图像/视频扩散(Image/Video Diffusion)

- Latent Diffusion:Stable Diffusion 背后的核心技术。
- DALL-E 系列:OpenAI 提出的图像生成模型,能够根据文本描述生成图像。
- Consistency Models:改进图像生成一致性的方法。
- Sora:一款开创性的文本到视频生成工具,尽管没有正式的论文发布,但其影响力不可忽视。

10. 微调(Finetuning)

- LoRA与QLoRA:提供廉价微调大模型的方法。
- DPO:OpenAI 支持的偏好微调方法,作为 PPO 的替代方案。
- RL 微调:针对推理能力的强化学习微调方法。

这份清单可能会让人感到压力,但只要你坚持下去,逐步消化这些论文,你将会掌握AI工程师所需的核心知识。

原文链接:网页链接
AI工程师阅读清单