为什么大模型偏爱Markdown
Markdown 的简洁之美
我们常见的文档格式,比如HTML、JSON、XML或者Markdown,Markdown是最简洁的。
比如要展示一行标题,相比复杂的HTML标签,使用Markdown我们只需要在文本前加个井号:
<heading level=“1”>这是一行标题</heading>
# 这是一行标题
如果要强调文案,用星号包裹住文案即可。Markdown提供了简洁性、结构性的同时,减低了复杂性。
为什么Markdown和大模型是最佳拍档
大模型是使用人类可读的内容训练而成的
关键原因在于大模型的训练方式。大模型的训练数据来自于海量的人类可读的内容,而Markdown的格式恰好这些内容完美契合。
Markdown格式清晰、符合直觉的语法反映了人类组织信息的自然方式:有标题,有列表,有强调。这种以人类可读性为中心的格式,更贴近自然语言,大模型更容易处理和理解。
设想一下,当你在阅读一个Markdown源文件时,你可以轻松的理解其中的文本结构,虽然不是渲染结果,也不影响理解。
这种清晰明了的结构同样帮助大模型处理和翻译文本内容,从而使生成的文本更加准确,更好的理解训练数据的组织结构。
首先,Markdown简洁明了的语法创建的文本接近自然语言,大模型可以轻松理解。当大模型遇到一个双井号时,它能立即识别出这是一个副标题。
这种明确的结构帮助大模型更好的掌握不同文本内容之间的层级关系。
其次,Markdown剥离了文本噪音。网页内容通常包含HTML、CSS和JavaScript。各种网页元素会迷惑大模型或者导致翻译出错。
Markdown去伪存真,只留下纯粹的结构化的文本。这使得大模型更容易聚焦重点,即实际的文本内容和组织结构。
总而言之,Markdown是一种简单但是强大的结构化文本的方式,这在AI时代愈发重要。
- 简洁的语法:添加井号即可变标题,添加星号即可划重点
- 清晰的结构:没有复杂的标签或者格式
- 人类可读:源文件格式看起来也是非常清晰