第5课:统计与文本生成——AI如何“接龙”?

初中九年级 · AI通识课程

第5课:统计与文本生成——AI如何“接龙”?

第5课:统计与文本生成——AI如何“接龙”?

初中九年级 免费学习

【学习目标】

1. 理解基于前文进行预测的基本原理

2. 能够通过统计方法构建简单的文本生成模型

3. 分析简单统计模型的局限性及大语言模型的改进方向

4. 评价统计方法在文本生成中的价值与不足

 

【情境导入】

当你使用智能输入法,刚输入周末和同学去公园,它便自动提示放风筝”“划船”“野餐等词语。这些仿佛能猜透你心思的智能提示,其核心正是基于统计的预测模型。系统通过分析海量文本数据,计算出在周末去公园后面,出现放风筝的概率最高。今天,我们就来揭开统计与文本生成的奥秘,看看AI是如何通过接龙的方式逐步掌握人类语言习惯的。

 

【知识大揭秘】

概念引入:基于前文的预测

文本生成的核心是自动预测下一个词。前文为预测后文提供了关键依据。看到小鱼时我们会选游泳,看到小猫时会选奔跑”——这种选择源于生活中的共同认知经验,而AI则通过学习海量文本中的搭配规律来实现同样的效果。

深度解析:从相邻字词统计到文本生成

通过统计任意两个词语相邻出现的次数,可以计算出它们之间的搭配强度,从而实现对下一个词的预测。当训练数据足够多、统计表足够庞大时,机器对字词组合规律的掌握就会更全面,生成的文本也会更加丰富与自然。但简单统计模型仅依据字词共现次数进行预测,没有处理对仗、押韵、意象连贯等诗歌要素。

案例时间:从小鱼游泳大模型写诗”——文本生成的进化之路

最早的文本生成只能基于相邻字词的统计规律生成简单句子,如小鱼游泳。当前的大语言模型则基于人工神经网络,能捕捉字词之间更深层次、更复杂的关系,例如理解明月玉盘指的是月亮,也知道春风常与和煦相连。尽管技术基础不同,但核心预测思想一致:根据已有的文字,预测下一个最可能的字词。

知识小结:文本生成的两个关键认知

第一,文本生成的核心是根据前文预测后文,这是所有语言模型的共同基础;第二,从简单统计到大语言模型,技术不断进化,但预测思想一脉相承。

 

AI看图学】


【动手练一练】

活动:动手算出诗句

步骤: 1. 给定一组古诗语料,统计相邻两字出现的次数,构建统计表 2. 根据统计表,从开始接龙,生成五言句和七言句 3. 尝试创建新的关联组合,生成全新的诗句 4. 对比分析:统计模型生成的诗句与真实古诗有什么差异?

工具/平台:工具/平台:纸笔、计算器,或使用Excel进行统计

预期成果:预期成果:一组由统计方法生成的诗句,附带对生成质量的分析

 

【想一想·辨一辨】

1. 简单统计模型生成的诗句往往通顺但不动人,你认为要生成真正好的诗歌,模型还需要学习哪些更复杂的因素?

2. 当前的大语言模型生成的文章看起来很聪明,但它真的理解了文本吗?你怎么看?

 

【拓展阅读·前沿视窗】

了解语言模型的发展史:从最早的n-gram模型到循环神经网络(RNN),再到当前的Transformer架构。每一次技术迭代都让模型能够看到更远的上下文,生成更连贯的文本。NLP工程师是AI领域的核心职业,他们让机器更好地理解人类语言。

学完本课了?来检验一下学习成果吧!

🎯 去练习

相关模拟考试