用CodeBuddy写小说为什么要用Markdown?
王福强
有美女在果总群里at我,问了这么个问题:
@王福强@福强私学 请教一下,上次你用codebuddy写小说为什么要用markdown,是因为codebuddy不能直接生成word或者pdf吗?
一开始,我可能想直觉性地回复说,因为我这十几二十年都在用markdown写作, 包括自己的博客以及所有电子与在线书籍,
又一想,也不全是。
其实今天的所有大语言模型相关的数据和信息交换,markdown算是事实标准了。
问问那些做RAG的同学就知道了
他们前置工作做的最多的工作是什么?
是从各种文件格式里提取信息,然后转换为markdown格式,再统一喂给大模型 🤣
不光这些, 大模型训练的语料, 以及大模型生成后吐出来的内容,原则上默认也是采用markdown格式。
假如过去我们喂给机器的是结构化数据(比如json/xml这些),
那么,现在我们可以认为,我们现在其实喂给大模型的是半结构化数据,因为markdown有内容结构。
至于完全的自然语言,那就是非结构化数据了。
结构化数据给机器,非结构数据给人, 半结构化的markdown,既可以给机器也可以给人,充当了最佳的桥梁。
codebuddy不能直接生成word或者pdf吗?
原则上只要计算机程序可以生成的格式,CodeBuddy都可以生成,因为作为一个AI Agent,它自身是通过调度外部工具完成大部分工作的,即使用户最终拿到了word或者pdf这样的结果形式,但其实处理链路上还是会调用各种外部能力或者程序。
所以,AI Agent能干成什么事情,看驱使它们的人。
调教的好,啥事儿都行,调教不好,或许就会胡言乱语、幻觉不断。
假如你想要更好的调教大模型或者AI Agent,可以看看「福强私学」里的「大模型调教手册」,算是王婆卖瓜一下
最后说个小洞察:
大模型这轮底层机制用的是一个叫Transformer的算法架构,
而Transformer的动词是Transform, Transform是“转换”的意思,而大部分时候,今天的很多大模型应用,很大一部分工作都在说数据格式“转换”的工作,比如从word/pdf/图片等各种信息媒介中转换数据和信息到文本格式,然后再交给大模型进行处理,谁让大模型原名叫Large Language Model呢,属于NLP领域,也就是自然语言处理,人与人说话,总不能直接吐图片吧?🤣
开天窗,拉认知,订阅「福报」,即刻拥有自己的全模态人工智能。
