商务服务
.html网页文件:标题,内容,url的提取
2024-12-16 15:22

        对下载下来的文件做处理,将网页文件中的标题,内容,以及url网址,都提取出来。

.html网页文件:标题,内容,url的提取

读取文件

        既然是对网页文件做搜索,就需要程序中有网页文件。

        所以就需要将网页文件从下载的目录中,读到程序中,也就是读到内存储存起来,方便后续的处理

         那如何对文件进行读取呢

        这里只记录C++17中使用 boost::filesystem实现遍历文件夹的方法

通过使用boost::filesystem提供的迭代器和成员函数实现对目录文件的便利。。

 

代码解析:首先用文件目录src_path实例化root_path对象,在判断该对象存不存在,不存在就没必要再向下执行,将迭代器用src_path目录进行实例化,再用迭代器去递归式的遍历该目录文件,如果不是普通文件或者不是网页文件,就不进行读取,反之,将网页文件读取到file_list文件链表中。

        将文件读取到file_list中(也就是内存中)之后,接着就需要对网页文件进行解析,解析里面的:标题,内容,url网址。

        我们在解析网页文件时,需要了解网页文件的结构你对结构不了解,就无法进行解析,解析出来也是错的

 也就是<title>和</title>之间就是标题,<body>和</body>之间就是网页内容

我们可以利用string中提供的find()找到<title>和</title>的位置,中间就时标题再利用substr()将标题进行截取,再将标题返回

 
 

然而,网页文件的内容,却不像,文件标题那样容易好找,下图是文件内容的示例图

 通过上图可以看出内容是在>和<之间,那我们只需要向上面那样找到>和<之间的内容,将他们返回即可。

我们需要利用了一个简易的状态机进行标记,利用枚举定义两个常量CONTENTLABLE,分别表示内容标签遍历到‘>’时就标记CONTENT,遍历到'<'时,就标记为LABLE,然后利用switch语句进行判断和读取

我们不想保留原始文件中的 ,因为我们想用 作为html解析之后文本的分隔符,所以这里用' '空格进行分割

 
 

官方url样例

 

 我们下载下来的url样例

 

因为我们将下载下来的文件放到了"data/input"目录下,拷贝到我们项目中的样例就变成:data/input/accumulators.html

官方网址:url_head = "https://www.boost.org/doc/libs/1_78_0/doc/html";

我们下载下来的文件就是官方网址下的一个目录(所以将前面的"data/input"删除就是官网文档下的文件名
url_tail = [data/input](删除) /accumulators.html -> url_tail = /accumulators.html
最终的网址url = url_head + url_tail ; 相当于形成了⼀个官网链接。

 

既然我们已经提取到了,标题,内容,和url网址,那我们就将提取到的这些内容利用结构体组织起来组织起来

 

里面运用了std::move()将左值变为右值vector中提供了移动拷贝和移动赋值,可以很好的将右值拷贝到vector中减少了一定的拷贝,提高了效率。这个是C++中容器结合右值引用之间的特性设计出来的。

如果不理解右值引用,那就不用了管了只知道push_back()是将结构体插入vector中即可

保存处理好的网页文件

关于std::ofstream向文件中写入数据,这里不做介绍。请参考

 

以上就是网络文件处理模块的内容,我们将处理好的文件放到"data/raw_html/raw.txt"这个目录下,在接下来的模块中,会对处理好的文件再次操作。

    以上就是本篇文章【.html网页文件:标题,内容,url的提取】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/4465.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
PICO启动“全民优化师”活动,征集VR游戏性能优化方案
创作期截至4月16日,评选期则是4月22日至5月9日(映维网Nweon 2025年03月31日)PICO正在举行名为“全民优化师”的活动,邀请你
TOSHIBA代理商东芝手机「TOSHIBA代理商」
TOSHIBA东芝半导体公司,在国际市场上盛名远扬,家喻户晓。在日本之外,东芝拥有100多家子公司和协作公司的庞大全球网络,仅海外
互传手机互传换机助手手机互传「互传手机互传换机助手」
互传手机互传换机助手,一般又称互传换机助手app。互传换机助手app是一款很受网友好评的手机换机工具。可以实现手机之间数据批量
噬心工具箱手机工具箱「噬心工具箱」
噬心工具箱这是一款方便好用的手机工具箱应用,用户可以使用软件轻松处理图片,超多使用功能,让用户生活更方便。噬心工具箱app
儋州清明假期旅游迎来热潮,民俗体验趣味十足
南海网4月6日消息(记者赵航)花落日渐暖,风起正清明,今年清明假期,踏青赏花趣味十足。4月5日,“福暖春日,泉享安康”温泉美
【教程】全民K歌,用手机唱卡拉OK,朋友一起听!手机k歌「【教程】全民K歌,用手机唱卡拉OK,朋友一起听!」
用手机软件来唱卡拉OK,我知道的有两个软件推荐给您,全民K歌和唱吧。两个软件功能都很强,以前年轻人似乎用唱吧的多一些,现在
繁荣“入境游”,“游”出“日常感”是关键
原标题:繁荣“入境游”,“游”出“日常感”是关键年初至今,我国入境游市场持续复苏,到清明节期间迎来小高峰。数据显示,清明
苹果iPhone14和13对比区别是什么 苹果美版值得买吗?手机壳多少钱「苹果iPhone14和13对比区别是什么 苹果美版值得买吗?」
处理器、屏幕、摄像头、内存等不同处理器相同:iPhone14的处理器没有变化,还是iPhone13 Pro上的满血版A15 仿生芯片,只有iPhone
两个人在线观看免费完整版日本手机在线播放「两个人在线观看免费完整版日本」
格式“武神主宰08集”是武神一部出色的武侠古装影片,充斥着大量精彩的主宰空手道、木棉三绝和剑术招式的武神视觉盛宴。它是主宰
北京:“以花为媒”培育新消费
  4月的北京,繁花似锦装点千年古都,满城春色中涌动着勃勃生机。  北京玉渊潭公园樱花绽放,吸引游客慕名赏花;元大都城垣