🧑🔬 谁开源了他们的科研工作流?
📋 概述
科研工作流程的开源远不如代码开源常见。但有一小群富有影响力的研究者,在工具链和方法论上都做了充分的公开分享。 本报告整理了五位代表人物的工作流——从 Karpathy 的 AI 驱动知识库到 Carl Boettiger 的开放笔记本, 涵盖了 论文阅读 → 笔记管理 → 实验记录 → 知识积累 的全链路。
从"工具辅助"转向"AI 全程维护"。
🔍 通用模式
不论工具是 Obsidian、Org-mode 还是 GitHub,这些工作流共享以下核心特征:
- 原子化笔记 — 将知识拆解为独立、可链接的基本单元
- 双向链接 — 在笔记之间建立关联,形成知识网络
- 增量积累 — 知识随时间演化,而非一次性整理
- 开放透明 — "Garage door up",工作过程公开可见
- 极简工具链 — 减少切换成本
- 自动化维护 — 让自动化处理书签工作,人类专注于思考
1️⃣ Andrej Karpathy — LLM Wiki + AutoResearch
核心理念:让 LLM 作为知识库的 维护者,而不是查询工具。人类做思考,LLM 做 bookkeeping。
架构三要素
| 层 | 作用 | 谁操作 |
|---|---|---|
| raw/ | 原始文档(论文、文章、图片),不可变 | 你(只读) |
| wiki/ | LLM 生成和维护的 Markdown 文件(实体页、概念页、源文档摘要页) | LLM(完全掌控读写) |
| CLAUDE.md | Schema 指令文件,规定结构、约定、工作流 | 你和 LLM 共建 |
三个核心操作
- Ingest:丢进新文档 → LLM 读取并讨论 → 写摘要、更新 index、更新相关实体页(一篇源文档可能涉及 10–15 个页面的更新)
- Query:提问 → LLM 读 index.md → 深入相关页面 → 综合答案 + 引用 → 有价值的结果写回 Wiki
- Lint:定期健康检查(矛盾检测、过时内容、孤儿页面、缺失交叉引用)
与 RAG 的对比
| 维度 | RAG | LLM Wiki |
|---|---|---|
| 数据处理 | 切块 + 向量嵌入 + 向量数据库 | Markdown 文件 + LLM 直接阅读 |
| 检索方式 | 相似性搜索 | LLM 内生理解 + 结构化索引 |
| 可追溯性 | 黑箱 | 每条声明可追溯到 .md 文件 |
| 维护成本 | 需向量数据库和嵌入服务 | 只需要文件系统 |
| 知识积累 | 每次从零发现 | 增量编译,持续保持最新 |
AutoResearch — 科研实验自动化 Agent
630 行 Python 代码,运行 ML 实验的"Ratchet Loop"——自动循环执行实验、评估结果、只保留有效的变更。
项目地址:Karpathy's Gist
2️⃣ Andy Matuschak — Evergreen Notes
核心理念:笔记是思考环境(Thinking Environment),而不是记录工具。"Work with the garage door up"——公开分享自己的工作过程。
Andy 的 Working Notes 是数千条完全公开的常青笔记,作为他个人思考的实验场。
笔记分类
- Source Notes — 源文档笔记,记录阅读的原始内容
- Concept Notes — 概念笔记,连接源笔记之间的思想
- Project Notes — 项目笔记,跟踪跨文档的大想法
关键原则
- 常青笔记是知识的基本单位,应随时间演化、积累
- 写笔记是为自己而非听众
- 写作是思考的工具而非产品的副产品
- 工作方法本身也是研究对象
3️⃣ Carl Boettiger — Open Lab Notebook
核心理念:从 2010 年开始实时公开所有科研活动——包括失败的实验、代码、数据。这不仅是"开放",更是一种工作方法。
技术栈
| 组件 | 用途 |
|---|---|
| GitHub 仓库 | 项目管理、版本控制、问题追踪(一个项目一个仓库) |
| knitr / Rmarkdown | 代码 + 分析 + 图表 + 文字一体式写作 |
| Jekyll 博客 | 时间线浏览、标签检索、RSS 订阅 |
| R 包结构 | 研究项目管理框架(数据、文档、源码规范化) |
独特创新
- "Integrated Lab Notebook" — 代码、数据、文字不分离
- 用 Issue Tracker 作为 TODO List
- commit log 自动追加到对应笔记
- 不公开的例外:仅应合作者要求延迟发布特定实验
成果:6 个项目从构思到发表,1 个 null result 公开存档,多次被合作者和审稿人引用工作流细节。
4️⃣ Katherine Hayes — Modified Zettelkasten + Obsidian
核心理念:"尽可能自动化书签工作,cut down on the busy work"——追求过程而非结果,每天以某种形式写作。
工具链
- Obsidian — 笔记主阵地,三级笔记(Reference / Concept / Project)
- Zotero + Chrome 扩展 — 文献保存与整理
- Better BibTeX — 生成 citekey 连接 Zotero 和 Obsidian
- Obsidian Citations 插件 — 连接笔记到 Zotero 条目
- Hazel — 自动根据标签分类文件
可贵的诚实:"很多笔记处于未完成状态"——这才是真实的科研状态。
5️⃣ 其他值得关注的实践者
Cameron Neylon — Science in the Open
生物物理学家,"LaBLog"方法:一个 Blog 条目对应一个研究物件(实验、想法、阅读)。强调失败也公开——让科学过程透明。
Awesome PKM for Academics
GitHub 上的资源集合,收录了数十个针对学术研究者的 PKM 工作流,涵盖了 Obsidian/Logseq 开箱即用 Vault、Zotero 集成、YouTube 教程等。
github.com/cecibaldoni/awesome-PKM-for-academics
📊 对比总结
| 人物 | 核心工具 | 工作流类型 | 自动化程度 | 开放程度 |
|---|---|---|---|---|
| Karpathy | Claude Code + Markdown | AI 驱动知识库 | 极高(LLM 全程维护) | Gist / 博客 |
| Matuschak | Custom system | 常青笔记思考环境 | 低(手动写作) | 完全公开 |
| Boettiger | GitHub + knitr + Jekyll | 开放笔记本科学 | 中(自动签到/commit) | 完全实时公开 |
| Hayes | Obsidian + Zotero | Modified Zettelkasten | 中(自动化归类) | 博客 + 社区分享 |
💡 核心洞察
- 方法论 > 工具 — 原子化笔记、双向链接、增量积累是所有方案的核心
- AI 开始接管书签 — Karpathy 的"LLM 做 bookkeeping,人类做思考"可能是未来方向
- 开放是杠杆 — Carl Boettiger 发现开源笔记可以帮 reviewer 审稿、吸引合作机会
- 不完美才是常态 — 所有大佬的工作流都有未完成的部分,追求"足够好"而非"完美"
- 两条路径 — 极简主义(Markdown + LLM)vs 结构化集成(Obsidian + Zotero + GitHub)
🔗 参考链接
- Karpathy's LLM Wiki Gist
- Andy Matuschak's Working Notes
- Carl Boettiger's Open Lab Notebook
- Katherine Hayes' Research Workflow
- awesome-PKM-for-academics
- Cameron Neylon - Science in the Open