文件大小:270.00KB 适用专业:信息检索 适用年级:本科 论文编号:110346 论文简介: 两道题,有算法思想解析、源代码(附详细注释)、和运行效果截图
题1.试按tf-idf在剔除一些常用词后给出文本中术语的统计算法和程序,并按降序进行排序。
【算法介绍】
TF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
。。。。。。。。。
【算法思想】
要计算tf和idf的值,需要知道文档总数、文档中每个词汇出现的次数、每个文档的总词数和包含某个词的文档个数。
本程序使用二叉树的数据结构定义:
struct BinTree
{
char term[20]; //存放词汇数组
double weight; //该词汇的权重
double num; //一篇文献中的某一索引词出现的次数
。。。。。。
};
。
【程序代码】
// tf_idf.cpp : Defines the entry point for the console application.
//
#include "stdafx.h"
#include﹤stdio.h﹥
#include﹤string.h﹥
#include﹤malloc.h﹥
#include﹤math.h﹥
#define FileNum 6
。。。。。。。。。。。。。
题2. 试编制首先对文档建立inverted file,然后进行检索的算法和程序。
论文文件预览: 共1文件夹,1个文件,文件总大小:270.00KB,压缩后大小:213.62KB
- 河海大学现代信息检索课程设计报告
河海大学现代信息检索课程设计报告.doc [270.00KB]
|