第10课：分类与聚类——机器如何“归类”与“发现”？

初中九年级免费学习

【学习目标】

1. 理解分类与聚类的核心思想及其区别与联系

2. 能够使用相似度计算实现简单的分类任务

3. 分析分类与聚类在实际应用中的不同场景

4. 评价分类与聚类辅助推理的价值与局限

学校图书馆新到一批未标注类别的书籍，管理员发现可以通过书籍内容中是否有数学公式这一特征来快速判断种类。这种“看不懂内容却能精准分类”的逻辑，正是分类辅助推理的作用。而在没有已知类别、需要从数据本身发现规律时，我们还会用到另一种同样强大的方法——聚类。

分类属于有预设类别的分析方法，核心流程是“定义类别→提取特征→匹配归类”；聚类属于无预设类别的分析方法，核心流程是“提取特征→计算相似性→自动分组”。二者的核心差异在于是否提前预设了数据的类别标签。

通过计算欧氏距离可以量化两个词语的相似程度。例如“欢呼”(0.7, 0.2)与“高兴”(0.8, 0.1)的距离为0.141，而与“悲伤”(-0.3, 0.6)的距离为1.0。距离越小表示越相似，因此“欢呼”应归入“高兴”类别。

文本情绪分类是分类思想的典型应用。AI先将文本转化为数值特征（如统计“开心”“难过”等关键词出现的频率），然后利用分类算法判断情绪类别。这种技术已广泛应用于社交媒体舆情监测、产品评价分析等场景。

电商平台分析用户购买行为时，不需要预设类别，而是根据购买记录、浏览习惯等特征的相似度，自动将用户聚合成“母婴家庭”“数码爱好者”等群体，从而实现个性化推荐。这就是聚类的典型应用。

分类的目标是“判断数据归属”，解决“对号入座”问题；聚类的目标是“发现数据内在结构”，解决“物以类聚”问题。二者互为补充，共同服务于智能推理。

步骤： 1. 打开文本情绪分类工具（如Hugging Face在线演示） 2. 输入不同情绪的句子，观察分类结果 3. 尝试用相近句式表达相反意思，观察分类结果变化 4. 总结影响分类效果的因素

工具/平台：工具/平台：Hugging Face情感分析演示、DeepSeek

预期成果：预期成果：文本情绪分类结果记录表及分析报告

1. 音乐App分析你的听歌行为后，把你归入“流行听众”等固定标签，这是分类还是聚类？为什么？

2. 如果一个聚类算法把你和同学分到了同一组，你觉得这说明了什么？可能有哪些误解？

了解当前最流行的分类算法：K近邻算法、决策树、支持向量机等。数据科学家是AI时代的核心职业，他们擅长从数据中发现规律、提取洞察。

学完本课了？来检验一下学习成果吧！

🎯 去练习