最后
Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
👉Python所有方向的学习路线👈
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
👉Python必备开发工具👈
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
👉Python全套学习视频👈
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
👉实战案例👈
学python就与学数学一样,是不能只看书不做题的,直接看步骤和答案会让人误以为自己全都掌握了,但是碰到生题的时候还是会一筹莫展。
因此在学习python的过程中一定要记得多动手写代码,教程只需要看一两遍即可。
👉大厂面试真题👈
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
需要这份系统化学习资料的朋友,可以戳这里获取
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
- 3 完整程序
项目背景:本项目旨在通过网络爬虫技术,成功抓取某影评平台上的660条关于电影《我和我对家乡》的热点影评数据。随后,我们利用高效的“结巴分词”工具,并结合自主构建的停用词词典,显著提升了中文分词的准确性。在此基础上,我们采用先进的“TF-IDF”方法为关键词分配权重,进一步增强了主题分类和情感分类的合理性,为后续的数据分析和研究奠定了坚实基础。
若有不足之处,敬请指正!多谢大家关注支持!!
1.1 豆瓣影评数据爬取——基于R
网络爬虫是一种从网页中提取所需信息的自动化技术,它利用程序来捕获并提取特定的数据内容。在本文中,我们采用R语言作为爬虫工具,利用其强大的数据处理能力进行统计分析。为了实现这一目标,我们首先引入了RCurl、XML和rvest等R语言的包,这些包为网页数据的抓取提供了必要的支持。
为了确定需要爬取的内容,我们使用SelectorGadget这一开源插件来识别所需数据的标签。在本研究中,我们选择了豆瓣影评网站,并专注于电影《我和我的家乡》的评价页面。我们锁定了“发布者”、“发布时间”和“影评内容”这三个关键属性作为数据抓取的目标。
在爬取过程中,我们首先加载了RCurl、XML和rvest等R语言的包。然后,我们通过影片《我和我的家乡》的页面链接,利用R软件读取了页面站点。接着,我们打开SelectorGadget工具,使用其提供的selector功能获取了片名的CSS选择器。根据这些CSS选择器,我们成功提取了“发布者”、“发布时间”和“影评内容”的数据。
然而,豆瓣电影网站设有反爬取机制,为了应对这一挑战,我们设计了循环抓取网页的语句代码。通过paste函数进行链接拼接,并利用循环语句逐步抓取数据。我们成功捕获了截止到2021年1月4日,《我和我的家乡》的热点影评,包括220条好评、220条差评和220条一般评论,共计660条影片评论。最后,我们创建了一个数据框来存储这些抓取到的数据,为后续的分析和研究提供了丰富的素材。
1.2 中文分词
中文自动分词是指通过计算机技术对中文文本进行自动化的词语切分处理,以便在中文句子中标识出词语之间的界限,类似于英文中的空格分隔。这一过程在中文自然语言处理中扮演着基础且关键的角色。
在进行中文分词之前,我们首先需要确定当前的工作目录,并准备好用户自定义的词典和停用词表,这些文件通常以UTF-8编码的txt文本格式保存。随后,我们导入先前抓取的短评文档数据,通过构建特定的循环语句来清除文本中的数字、字母等非中文字符,这些通常被视为无效特征。
接下来,我们利用结巴分词工具对处理后的中文文本进行自动分词,这是一个基于规则和统计的方法,能够有效识别出文本中的词语边界。分词完成后,我们进一步利用整合好的停用词词典来剔除那些对文本意义不大的停用词,如常见的虚词、助词等。 最后,我们移除分词结果中可能存在的多余空格,并结合短评的文本类别属性,构建出一个中文分词的稀疏矩阵。这个矩阵将作为后续文本分析、主题分类或情感分析等工作的基础,有助于提高分析的准确性和效率。
1.3 关键词主题分类
主题模型(Topic Model)在机器学习和自然语言处理等领域,用来在一系列文档中发现抽象主题的一种统计模型。一个主题模型用数学框架来体现文档的这种特点,主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。
在本文中利用文档-词频矩阵实现文本数据的结构化、使用共现分析利用词汇共同出现的情况,定量地研究文本关系后,我们进行主题建模,根据主题建模效果设定3个主题:即人物、剧情、心理,将以上的处理转化为数据框格式,并且创建数据框储存分类信息。
2.1 数据来源
为了得到相关数据来研究电影《我和我的家乡》短评中语言情感倾向,我们小组选择在豆瓣网站上以爬虫的方式获取所需的影评数据。在爬取时我们选择以2021年1月4日为截止点,选择该影片最新最火热的数百条短评,但由于豆瓣网站的反爬取机制,受到限制不能抓取全部评论,于是设置循环抓取网页的语句代码,循环共抓取660条电影短评。
基础站点:我和我的家乡 短评
2.2 数据采集代码(采集+存储)
2.3 数据预处理思路
通过上述爬虫后我们得到原始数据,部分数据见下表。
具体数据预处理操作流程如下图所示:
首先,创建循环数据结构剔除影评文本中的标点、数字、字母等无效属性;然后我们通过对所获取的影评文本进行结巴分词处理,结巴分词是利用已用中文词库(使用者可以根据自身需要可以在原词库基础上再进行添加新词),确定汉字之间的关联概率,汉字间概率大的组成词组,形成分词结果。通过剔除数字、字母文本后,发现第387、420、464的个案为空白文本,所以去除这3个个案;接着,我们根据自己汇总的停用词典(共1892个停用词)去除中文分词文本中的停用词,停用词主要用于过滤一些无效、无实质意义或者干扰词汇,例如“哒”、“吱”、“呃”等字、词或者词组,在剔除了停用词后发现第358、528、584、593个个案的影评无内容,所以剔除这四个个案。为了生成文本稀疏矩阵,我们创建了不稳定语料库,并去除了多余的空格,生成了具有TF-IDF特征的稀疏矩阵,最后,将标准化后的稀疏矩阵与评论类别属性合并为一个CSV文件。
2.3.1 中文分词代码
2.3.2 文本稀疏矩阵生成代码
经过上述的一系列数据预处理后,我们可以得到处理后的部分数据格式见下表所示。
2.4 主题模型构建(代码+分析)
主题模型的主要技术是隐含狄式分布(LDA),它假定在文档里能找到的主题和单词分布来源事先按照狄式分布抽样的隐藏多项分布,主题模型可以视为聚类的一种形式。主题模型在机器学习和自然语言处理等领域中是一种在一系列文档中发现抽象主题的统计模型,主题模型通过词项在文档级的共现信息中抽取出语义相关的主题集合,并能将词项空间中的文档变换到主题空间,得到文档在低维空间的表达,潜在狄利克雷分布模型是一种广泛使用的主题模型。
在本文中我们将研究数据拆分为3个文件,即好评文件、差评文件、一般评论文件,在对数据进行一系列的预处理后,就做好建模的准备。首先进行初始化参数操作,在建立模型时经过程序的预运行我们设置了3个主题属性,在完成模型后会将文档自动归分为3个主题,通过加载LDA数据包即可完成初步LDA建模。
运行程序:
在我们研究的此次主题模型中,我们选择查看每个主题最重要的20个词,首先将数据转化为dtm矩阵,从矩阵中计算每个词条的频率,转换为数值型向量后去掉属性名,组成新的词频数据框,得到的结果如下表所示。
通过ggplot2可视化,用R软件对三个文档文本数据进行主题模型主题得分计算,根据每个文档主题得分进行文档主题排名排序,我们得到下图:
通过上图我们可以看到,得分最高的是a3,其文档频率最高的词为“最后一课”、“北京”、“真的”等;其次是文档b2,前几个词为“没有”、“什么故事”、“每个家乡”等;得分最低的是文档c1,文档前几个词是“电影”、“祖国”、“这种”等。
根据LDA主题模型,从不同主题着手进行词云图绘制,如下图,我们根据不同主题词云特征确定三个主题分别为人物、剧情、心理,分别为主题3、主题2、主题1,其中任务类别主要涉及网友对人物的评价;剧情类别主要涉及网友对剧中情节的评价;心理主要涉及网友关于电影引发的感概。