Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 8|回复: 0

谈一谈1网页文本怎样现预处理-

[复制链接]

5万

主题

0

回帖

16万

积分

超级版主

Rank: 8Rank: 8

积分
161013
发表于 2024-8-24 00:49:46 | 显示全部楼层 |阅读模式

W页大部分都是使用HTML(H T M L)语言来进行编写,但HTML是半结构化的,并且页格式灵活,没有统一的标准,这使得抽取页文本信息的任务变得非常复杂。大致有种常用的方法用来提取页中相对有用的信息:cdn加速的相关知识也可以到网站具体了解一下,有专业的客服人员为您全面解读,相信会有一个好的合作!https://online.wangsu.com/

(1)将页中所有文字都认为是有用的信息,这将造成文本中包含有大量的噪声信息;
(2)将页标题,页正文,字体加粗文字等看作是有用信息,而把其他的关信息过滤掉,这种方法能够达到较好的效果;
(3)依据一些特定的规则判断出应该要保留哪些信息,对于有固定模板的页分类而言,它们有特定的规则,这种方法在预处理中是比较好的,但是法适用于所有页。本文介绍的页预处理过程包括页文本去噪、分词、停用词移除(  )和词干提取()等。



1、页文本去噪
在页中,很多标签(比如、等)不包含任何有用信息,对于页所属的类别的确定没有任何作用,还会对分类的性能带来干扰,应该 将 它 们 当 作 噪 声 去 除。  页 中 还 有 一 些 标 签 ( 比 如 、等)标注的特征项,在页文本中起到非常重要的作用,对页所属的类别有强调作用,这些标签不仅需要保留,还应该对标记的特征项进行加权处理。
2、分词对页文本进行去噪
处理和特征项加权后,还需将页文本转换为适合于分类任务的表示形式。之前的研究表明,使用单词()作为文本的特征项能够很好地表示页的内容,因此从页文本中提取特征项是预处理的关键一步。在英语中,特征词提取过程相对简单,因为每个特征词之间都是通过空格自然分开的;由于汉语自身的特点,对中文文本进行特征项提取时,需要先对文本进行分词处理,分词质量的好坏直接影响到比较后分类结果的准确性。
3、停用词移除和词干提取
在特征集中有些特征词出现次数非常多,它们作为句子的组成成分,却不能表达出文本的任何内容,对于分类几乎没有什么作用,因而可以被忽略,这样的特征项称为停用词。英文中常用的停用词包括,,,,等,中文中的停用词包括的,啊,这个等。
在许多语言中,一个词在不同的语境中有不同的语法形式,比如,和都是有词干变化而来。词干提取的含义是简化单词,直到变成它们的词根或者词干。一个词干是一个单词移除它的前缀和后缀之后剩下的部分,词干提取有助于降低特征项数目,提高分类的查全率。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|民丰县戊齐食用油有限公司

GMT+8, 2024-11-2 08:36 , Processed in 0.125970 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表