第二节 计算机信息检索的发展历程
向量空间模型的提出与应用
重要程度:8 分
<div>
<h2>向量空间模型的提出与应用</h2>
<p><strong>向量空间模型(Vector Space Model, VSM)</strong>是一种用于信息检索的数学模型,它将文档和查询表示为向量,并通过计算这些向量之间的相似度来评估文档的相关性。</p>
<h3>1. 向量空间模型的基本概念</h3>
<p>在VSM中,每个文档被表示为一个向量,其中每个维度对应于一个词汇项(term)。向量中的值通常表示该词汇项在文档中的重要性。</p>
<h3>2. 术语频率-逆文档频率(TF-IDF)</h3>
<p>为了衡量词汇项的重要性,常用的方法是<em>TF-IDF</em>(Term Frequency-Inverse Document Frequency)。TF-IDF是一个数值,用于评估一个词对于一个文档或语料库中的其中一份文档的重要程度。</p>
<ul>
<li>TF (Term Frequency):某个词在文档中出现的次数除以文档的总词数。</li>
<li>IDF (Inverse Document Frequency):逆文档频率,是总的文档数除以包含该词的文档数,再取对数。</li>
</ul>
<h3>3. 向量间的相似度计算</h3>
<p>在VSM中,常用的相似度计算方法是余弦相似度。通过计算两个向量之间的余弦值来判断它们的相似度。</p>
<p>公式如下:</p>
<pre>
cos(θ) = A·B / (||A|| * ||B||)
</pre>
<p>其中,A·B 是向量A和向量B的点积,||A|| 和 ||B|| 分别是向量A和向量B的模长。</p>
<h3>4. 例题说明</h3>
<p>假设有一个文档集合,其中有两个文档D1和D2,以及一个查询Q。文档和查询用以下词汇表示:</p>
<table>
<tr>
<th>词汇</th>
<th>D1</th>
<th>D2</th>
<th>Q</th>
</tr>
<tr>
<td>term1</td>
<td>5</td>
<td>0</td>
<td>2</td>
</tr>
<tr>
<td>term2</td>
<td>2</td>
<td>3</td>
<td>1</td>
</tr>
</table>
<p>根据TF-IDF计算每个词汇的权重,假设IDF(term1)=1.0, IDF(term2)=0.5。</p>
<table>
<tr>
<th>词汇</th>
<th>D1</th>
<th>D2</th>
<th>Q</th>
</tr>
<tr>
<td>term1</td>
<td>5 * 1.0 = 5.0</td>
<td>0 * 1.0 = 0.0</td>
<td>2 * 1.0 = 2.0</td>
</tr>
<tr>
<td>term2</td>
<td>2 * 0.5 = 1.0</td>
<td>3 * 0.5 = 1.5</td>
<td>1 * 0.5 = 0.5</td>
</tr>
</table>
<p>计算向量的模长:</p>
<table>
<tr>
<th>文档/查询</th>
<th>模长</th>
</tr>
<tr>
<td>D1</td>
<td>sqrt(5^2 + 1^2) = sqrt(26)</td>
</tr>
<tr>
<td>D2</td>
<td>sqrt(0^2 + 1.5^2) = 1.5</td>
</tr>
<tr>
<td>Q</td>
<td>sqrt(2^2 + 0.5^2) = sqrt(4.25)</td>
</tr>
</table>
<p>计算余弦相似度:</p>
<table>
<tr>
<th>文档/查询</th>
<th>余弦相似度</th>
</tr>
<tr>
<td>D1</td>
<td>(5*2 + 1*0.5) / (sqrt(26) * sqrt(4.25)) ≈ 0.78</td>
</tr>
<tr>
<td>D2</td>
<td>(0*2 + 1.5*0.5) / (1.5 * sqrt(4.25)) ≈ 0.27</td>
</tr>
</table>
<p>因此,D1与查询Q的相似度更高。</p>
</div>