第6课:《数据加工:给AI“做美食”》
【学习目标】
1. 了解数据清洗、数据转换和归一化的基本方法
2. 理解为什么原始数据需要加工才能被AI使用
3. 体验简单的数据清洗和编码操作
【情境导入】
买回来的菜不能直接下锅,要洗菜、切菜、配菜,才能做出一道好菜。数据也是一样!收集来的原始数据往往又脏又乱——有的数据缺了一块,有的数据明显不对,有的数据格式不统一。如果直接把这些“脏数据”喂给AI,AI就会“吃坏肚子”,做出错误的判断。所以,我们需要对数据进行加工处理,就像厨师处理食材一样。让我们来学习如何给AI“做美食”吧!
【知识大揭秘】
数据加工主要包括三个步骤:
第一步:数据清洗——给数据“洗澡”。原始数据常常有三种“脏”的情况:缺失值(有些信息漏掉了)、异常值(有些数据明显不对劲)、重复值(同一条数据出现了多次)。数据清洗就是要处理这些问题。比如,一个学生信息表中,某个学生的年龄写成了200岁,这显然是异常值,需要修正或删除;有两个完全相同的学生记录,这是重复值,需要去掉一个。
第二步:数据转换——给数据“换衣服”。AI有时候只能理解数字,但原始数据可能是文字、图片等格式。数据转换就是把数据变成AI能理解的格式。常见的方法有:数字编码法(比如用1代表“男”,2代表“女”)、独热编码(比如用[1,0,0]代表“红色”,[0,1,0]代表“绿色”,[0,0,1]代表“蓝色”)。
第三步:归一化和标准化——给数据“排排队”。不同类型的数据可能差距很大,比如考试成绩是0到100,而身高是100到180厘米。如果直接放在一起,AI可能会觉得身高比成绩重要得多(因为数字更大)。归一化就是把所有数据都缩放到0到1之间,让它们站在同一条起跑线上,公平比较。
【生活案例】智能体测的数据加工
学校体测时,每个同学有身高、体重、跑步成绩等数据。这些数据需要加工才能被AI分析:首先清洗,去掉明显错误的数据(如体重写了1000公斤);然后转换,把“男”“女”变成数字编码;最后归一化,让身高、体重、跑步成绩都在0到1之间,AI才能公平地分析每个同学的综合体质水平。
【AI看图学】
【动手玩一玩】
任务:体验数据清洗
步骤:
1. 下面是一组有问题的“学生身高数据”(单位:厘米):135、138、-5、140、138、999、137、142
2. 找出其中的异常值(明显不对的数据)和重复值
3. 把异常值去掉,重复值只保留一个
4. 计算清洗后数据的平均身高
预期结果:异常值是-5和999(身高不可能是负数或999厘米),重复值是138。清洗后的数据为:135、138、140、137、142,平均身高约为138.4厘米。
【思考与延伸】
❓ 思考题 如果AI用没有清洗过的“脏数据”来预测同学们的平均身高,结果会怎样?为什么数据清洗对AI来说这么重要? |
学完本课了?来检验一下学习成果吧!
🎯 去练习