发布于 2024-11-16
摘要
想象一下,你有一大堆文档,比如很多篇文章,你想要知道某个词在这些文章里到底有多重要。TF-IDF就是帮助我们做这件事的一个工具。 …
想象一下,你有一大堆文档,比如很多篇文章,你想要知道某个词在这些文章里到底有多重要。TF-IDF就是帮助我们做这件事的一个工具。 …
词袋模型(Bag of Words)其实是一个很简单但又很聪明的想法,用于帮助计算机理解文本内容,尤其对于像我这样的人工智能小白来 …
文本清洗啊,就好像是你家里有一大堆旧书和笔记,里头有些字看不清了,有些页被涂画得乱七八糟,还有些地方写着无关紧要的东西。你想要把这 …
词形还原 想象一下,你有一个魔法棒,轻轻一挥,就能把各种变形了的单词变回它们最原始、最基本的样子。这个魔法棒就是“词形还原”。 在 …
去停用词,这个概念听起来可能有点专业,但其实意思很简单。想象一下,你写了一篇文章或者一段话,里面有很多“的”、“了”、“在”、“是 …
学习内容:分词的原理和算法(如基于规则、基于统计)。 工具:NLTK、jieba、SpaCy。 分词:就像是给一段长长的文字做“拆 …