第4课：机器如何拆解语言？——从分词到词元

初中九年级免费学习

【学习目标】

1. 理解词元（token）的概念及其作为AI处理语言基本单位的作用

2. 能够对比人类与机器在分词方法上的主要差异

3. 分析BPE算法自动构建词表的核心思想

4. 评价不同分词策略对AI理解语言的影响

【情境导入】

当你向聊天框输入“人工智能正在改变生活”时，你能轻松识别出“人工智能”“正在”“改变”“生活”这些有独立含义的词语。但对机器来说，这却是一项挑战。面对“南京市长江大桥”，机器会拆分成“南京市”“长江大桥”还是“南京”“市长”“江大桥”？这个看似简单的问题，实际上是AI理解语言的第一步，也是最关键的一步。

【知识大揭秘】

概念引入：词元——AI的“语言砖石”

计算机处理信息的基本单位是字节，而AI处理语言的基本单位则是词元（token）。词元通常是一个子词单位，一个完整的词往往会被拆分为多个词元。例如英文“fortunately”可能被拆分为“for”“tun”“ate”“ly”四个词元；中文“数据库”可能被拆分为“数据”和“库”两个词元。

深度解析：人类分词 vs 机器分词

人类分词主要依赖语言知识和语感，而机器的分词策略则根据任务需求灵活调整。为可视化设计时，需要切分出贴近人类认知的整词形式；为模型处理设计时，则经常得到便于机器学习的子词形式。分词方式的选择，直接决定了AI“看到”和理解世界的方式。

案例时间：BPE算法如何“算出”词元

BPE（字节对编码）是当前主流大语言模型采用的词表构建方法。它的核心思想是：从单个字符开始，反复合并出现次数最多的相邻字符对，逐步构建出更长的词元。例如在“人工智能正在改变世界”等语料中，“人”+“工”出现次数最多，先合并为“人工”；“智”+“能”其次，合并为“智能”。即使不理解语义，机器也能基于统计规律从文本中“算出”不同形式的词元。

知识小结：分词的三个关键认知

第一，词元是AI处理语言的基本单位，它不等于人类认知中的“词”；第二，机器分词并非基于对语义的“理解”，其核心机制在于统计与概率计算；第三，分词方式的选择直接影响AI理解语言的方式和质量。

【AI看图学】

【动手练一练】

活动：体验不同分词工具的差异

步骤： 1. 在DeepSeek中输入“请将以下句子进行分词：南京市长江大桥”，观察其分词结果 2. 尝试多个歧义句（如“结婚的和尚未结婚的”），观察不同工具的分词差异 3. 分析为什么同一句子的分词结果可能不同

工具/平台：工具/平台：DeepSeek、jieba在线分词工具

预期成果：预期成果：分词对比分析表，包含不同工具对同一文本的分词结果和差异分析

【想一想·辨一辨】

1. 如果一个大语言模型把“人工智能”拆分成“人”“工”“智”“能”四个词元，而另一个模型保持为“人工智能”一个词元，哪种更好？为什么？

2. 机器分词不基于语义理解，而是基于统计规律。这意味着AI“理解”语言的方式与人类有本质区别。你认为这种区别会导致什么问题？

【拓展阅读·前沿视窗】

了解当前主流大语言模型使用的词表规模——例如GPT-4的词表包含约10万个词元，而中文词元的数量远少于英文词元，这导致中文处理的计算成本更高。自然语言处理工程师是AI领域的重要职业，他们负责设计和优化语言处理系统。

学完本课了？来检验一下学习成果吧！

🎯 去练习

第4课：机器如何拆解语言？——从分词到词元