第4课:机器如何拆解语言?——从分词到词元

初中九年级 · AI通识课程

第4课:机器如何拆解语言?——从分词到词元

第4课:机器如何拆解语言?——从分词到词元

初中九年级 免费学习

【学习目标】

1. 理解词元(token)的概念及其作为AI处理语言基本单位的作用

2. 能够对比人类与机器在分词方法上的主要差异

3. 分析BPE算法自动构建词表的核心思想

4. 评价不同分词策略对AI理解语言的影响

 

【情境导入】

当你向聊天框输入人工智能正在改变生活时,你能轻松识别出人工智能”“正在”“改变”“生活这些有独立含义的词语。但对机器来说,这却是一项挑战。面对南京市长江大桥,机器会拆分成南京市”“长江大桥还是南京”“市长”“江大桥?这个看似简单的问题,实际上是AI理解语言的第一步,也是最关键的一步。

 

【知识大揭秘】

概念引入:词元——AI语言砖石

计算机处理信息的基本单位是字节,而AI处理语言的基本单位则是词元(token)。词元通常是一个子词单位,一个完整的词往往会被拆分为多个词元。例如英文“fortunately”可能被拆分为“for”“tun”“ate”“ly”四个词元;中文数据库可能被拆分为数据两个词元。

深度解析:人类分词 vs 机器分词

人类分词主要依赖语言知识和语感,而机器的分词策略则根据任务需求灵活调整。为可视化设计时,需要切分出贴近人类认知的整词形式;为模型处理设计时,则经常得到便于机器学习的子词形式。分词方式的选择,直接决定了AI“看到和理解世界的方式。

案例时间:BPE算法如何算出词元

BPE(字节对编码)是当前主流大语言模型采用的词表构建方法。它的核心思想是:从单个字符开始,反复合并出现次数最多的相邻字符对,逐步构建出更长的词元。例如在人工智能正在改变世界等语料中,”+“出现次数最多,先合并为人工”+“其次,合并为智能。即使不理解语义,机器也能基于统计规律从文本中算出不同形式的词元。

知识小结:分词的三个关键认知

第一,词元是AI处理语言的基本单位,它不等于人类认知中的;第二,机器分词并非基于对语义的理解,其核心机制在于统计与概率计算;第三,分词方式的选择直接影响AI理解语言的方式和质量。

 

AI看图学】


【动手练一练】

活动:体验不同分词工具的差异

步骤: 1. DeepSeek中输入请将以下句子进行分词:南京市长江大桥,观察其分词结果 2. 尝试多个歧义句(如结婚的和尚未结婚的),观察不同工具的分词差异 3. 分析为什么同一句子的分词结果可能不同

工具/平台:工具/平台:DeepSeekjieba在线分词工具

预期成果:预期成果:分词对比分析表,包含不同工具对同一文本的分词结果和差异分析

 

【想一想·辨一辨】

1. 如果一个大语言模型把人工智能拆分成”“”“”“四个词元,而另一个模型保持为人工智能一个词元,哪种更好?为什么?

2. 机器分词不基于语义理解,而是基于统计规律。这意味着AI“理解语言的方式与人类有本质区别。你认为这种区别会导致什么问题?

 

【拓展阅读·前沿视窗】

了解当前主流大语言模型使用的词表规模——例如GPT-4的词表包含约10万个词元,而中文词元的数量远少于英文词元,这导致中文处理的计算成本更高。自然语言处理工程师是AI领域的重要职业,他们负责设计和优化语言处理系统。

学完本课了?来检验一下学习成果吧!

🎯 去练习

相关模拟考试