TF-IDF（Term Frequency-Inverse Document Frequency）

想象一下，你有一大堆文档，比如很多篇文章，你想要知道某个词在这些文章里到底有多重要。TF-IDF就是帮助我们做这件事的一个工具。

Term Frequency（TF） - 词频

首先，“TF”代表的是“词频”。它很简单，就是数某个词在一篇文章里出现了多少次。比如，如果一篇文章里有100个词，而“苹果”这个词出现了5次，那么“苹果”在这篇文章里的词频就是5/100 = 0.05。词频越高，说明这个词在这篇文章里越重要，对吧？

Inverse Document Frequency（IDF） - 逆文档频率

但是，光看词频还不够。因为有些词，比如“的”、“是”、“在”，几乎每篇文章都会出现很多次，但这些词其实对我们了解文章的主题帮助不大。所以，我们还需要看另一个东西，叫做“逆文档频率”，简称IDF。

逆文档频率是这样计算的：先数一共有多少篇文章包含了这个词，然后用总文章数除以这个数量，最后取对数。如果一个词在很多篇文章里都出现了，那么它的逆文档频率就会比较低；反之，如果一个词只在很少的文章里出现，那么它的逆文档频率就会比较高。

TF-IDF - 词频-逆文档频率

最后，我们把词频（TF）和逆文档频率（IDF）相乘，就得到了TF-IDF值。这个值既考虑了词在文章里出现的次数，又考虑了词在所有文章里的普遍程度。TF-IDF值越高，说明这个词对这篇文章来说越独特、越重要。

举个例子，如果“苹果”这个词在某篇文章里出现了很多次，但在其他文章里很少出现，那么它的TF-IDF值就会很高，说明这篇文章可能是讲苹果的。而如果“的”这个词虽然在这篇文章里也出现了很多次，但几乎所有文章都有它，那么它的TF-IDF值就会很低，因为它对确定文章主题没什么帮助。

所以，TF-IDF就是这样一个工具，它帮助我们找出对文章主题最重要的那些词。希望这样解释，你能明白啦！

TF-IDF（Term Frequency-Inverse Document Frequency）插图1

TF-IDF的计算方法

首先，我们要明白TF-IDF是由两部分组成的：TF（词频）和IDF（逆文档频率）。

TF（词频）：这个很简单，就是看看某个词在一篇文章里出现了多少次。比如，你有一篇文章，总共1000个字，“苹果”这个词出现了10次，那么“苹果”的词频TF就是10/1000=0.01。

IDF（逆文档频率）：这个稍微复杂一点。首先，你要数数一共有多少篇文章包含了这个词。然后，用总的文章数量除以包含这个词的文章数量，再取这个结果的对数。比如，你总共有1000篇文章，其中10篇包含了“苹果”这个词，那么“苹果”的逆文档频率IDF就是log(1000/10)。这里的log通常是以10为底或者自然对数，具体看你怎么定。

最后，你把TF和IDF相乘，就得到了这个词的TF-IDF值。这个值越大，说明这个词对这篇文章来说越重要。