摘要 挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,本文介绍了一种文本数据挖掘方法。并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性。关键词 文本挖掘;文本分类;数据挖掘;VSM 本文首先讨论了文本挖掘技术的定义、功能、分类等问题,接着重点研究了文本分类的关键理论问题,包括分词、特征提取、特征匹配等方面,并简述了我们开发的一个简单的文本分类系统的实验情况,最后是结束语。1 文本挖掘简介1.1 文本挖掘的定义 文本挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣,同时,它也是一个富于争议的研究方向,目前其定义尚无统一的结论,需要国内外学者开展更多的研究以便进行精确地定义。类似于我们熟知的数据挖掘定义,我们对文本挖掘作如下定义。定义1:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。 直观的说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。文[1]已对Web挖掘与信息检索进行了比较研究,在此,我们不再详细讨论文本挖掘与信息检索的关系,我们认为随着文本挖掘技术研究的发展,将之应用到信息检索领域,必将能进一步提高信息检索的精度和效率。1.2 文本挖掘的分类 文本挖掘从功能上可以分为总结、分类、聚类、趋势预测等。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。从而用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合非常有用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。目前,绝大部分搜索引擎采用的方法是简单地截取文档的前几行。 文本分类是指按照预先定义的分类体系,将文档集合的每个文档归入某个类别。这样,用户不但能够方便浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。目前,Yahoo仍然是通过人工对Web 文档进行分类,这大大限制了其索引页面的数目和覆盖范围。可以说研究文本分类有着广泛的商业前景和应用价值。 文本聚类与分类的不同在于,聚类没有预先定义的主题类别,是一种典型的无教师的机器学习问题。 它的目标是将文档集合分成若干簇,且同一簇内的文档相似度尽可能大。聚类的结果可以用来指导分类。 文[2,3]介绍了利用文档进行分布分析和趋势预测的情况。以上功能的研究在国外研究得比较的多,但都是基于英文环境的。在国内,数据挖掘研究者对中文文本的研究还刚刚开始,如何借鉴现有中文处理技术对文本进行挖掘仍有很多问题亟待解决。2. 文本分类 我们开发了一个简单的文本分类系统(STCS),下面分别介绍其中的各项关键技术。2.1 文本信息的预处理 在对文档进行特征提取前,需要先进行文本信息的预处理,对英文而言需进行Stemming处理,中文的情况则不同,因为中文词与词之间没有固有的间隔符,需要进行分词处理。在中文信息处理领域,对中文自动分词研究已经得比较多了,提出了一些分词方法,如最大匹配法、逐词遍历匹配法、最小匹配法等。文[4]中采用了基于词典的正向逐词遍历匹配法,在我们设计的分类系统(STCS)中,我们在分析了最大匹配法的特点后,提出了一种改进的算法。该算法在允许一定的分词错误率的情况下,能显著提高分词效率,其速度优于传统的最大匹配法。但是我们忽略了通用词的处理,仅处理专用词典中的词条,从而较好地避免了通用分词的技术问题,此方法适合于专用领域文档的分类。 改进算法的主要思想是对词典建立索引,匹配时,将以 论文检测天使-免费论文检测软件http://www.jiancetianshi.com
第一个字开头的词条均读入内存,以后的回溯匹配均在内存中查找,避免了最大匹配法频繁查词典的缺陷。该算法的详细描述以及效率比较,我们将另文给出。 我们将主词典、同义词词典合二为一,仅建立了一个词典,从而加快查词速度。词典结构如下:
词条 | 编号 | 同义词 | 文档频数 |
[8]电大学习网.免费论文网[EB/OL]. /d/file/p/2024/0424/fontbr /> 对于词条权值 的处理,在文本学习中最常用的是TF*IDF表示法,它是一种文档的词集表示法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的结构。综合考虑词条对文档的区分度、词频等因素,我们改进了传统的TF*IDF表示法,提出权值公式(1)。再考虑到高频词、低频词的问题,对权值 进行规范化,得到权值公式(2)。表明公式(2)有较高的合理性和较好的分类效果。
[8]电大学习网.免费论文网[EB/OL]. /d/file/p/2024/0424/fontbr />
相关文章:
在J2ME/MIDP中实现图像旋转04-26
Web日志挖掘在网络远程教学中的应用04-26
多媒体农业专家系统构建平台的实现与研究04-26
基于Agent的分布式数据库异构消解策略04-26
一种硬实时调度算法的可行性判定及实现04-26
密文数据库加脱密引擎的设计与应用04-26
SNMP在电信设备远程故障检测中的应用04-26
具有状态保持机制的EPG系统研究与实现04-26
MPEG-4中运动估计模块的改进与优化04-26