python软件安装链接电视_Python爬虫程序:电视剧琅琊榜全集的自动化处理

题外话

电视剧《琅琊榜》的大热期已过,一直没时间看看究竟演的啥是,在度娘上找到下载地址,准备细细品味(强迫症!非要下载下来看)。

附上地址:琅琊榜高清下载地址,坑,就在整个网页54集的电视剧居然没有给一个“全选”按钮,非得点一个链接才能下载一集。这样的事情,就促成了强迫症做下了接下来的事情……

这样学习挺有意思的。

自动化处理的思路

该网页是静态页面,我的目的是使用Python将网页标签中对应的每一集的download链接爬出来,保存在windows剪切板或文本文件中,之后直接把下载链接复制到迅雷或QQ旋风等下来器中,完成下载,这样一看就很简单了, 高手勿喷啊>>。

下面是详细的过程。

开发环境win10 64位, win7以上应该都可以;

Python 2.7.10_x64;

IDE: Pycham Community Edition 5.0.1;

所需要的python库:urllib2、bs4、chardet、python_win32 API等.

代码描述

代码清单包含:clipBoardUtil.py、lybTv_main.py、lybTvSpider_Py2.py、fileRename.py、lyb_urls.txt 五个文件。

整个目录结构如下图所示:

python软件安装链接电视_Python爬虫程序:电视剧琅琊榜全集的自动化处理

[3]. 使用到clipboardUtil.py代码如下:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41# clipBoardUtil.py

# coding=utf-8

# 使用win32 api 操作Windows剪切板

# import sys

# sys.path.append(“/to/path/win32clipboard”)

# sys.path.append(“/to/path/win32con”)

import win32clipboard as w

import win32con

def getText():

“获取windows剪切板内容”

w.OpenClipboard()

d = w.GetClipboardData(win32con.CF_TEXT)

w.CloseClipboard()

return d

def setText(aString):

“设置windows剪切板的内容”

w.OpenClipboard()

w.EmptyClipboard()

# 设置Unicode编码格式

w.SetClipboardData(win32con.CF_UNICODETEXT, aString)

w.CloseClipboard()

def main():

“测试程序”

print getText()

setText(“我在剪切板中”)

print getText()

# 判断是否是在直接运行该.py文件

if __name__ == “__main__”:

main()

Python调用Win32API使用Windows的剪切板功能,win32的Python库需要手动安装一下,下载地址为:

找到自己对应的版本,由于我使用的是Python2.7.10,因此,下载的win32版本为:/Build 219/目录下的pywin32-219.win-amd64-py2.7.exe版本。注意,安装后PyCham不能立即识别,需重启一下IDE。

<>

剧集重命名下载完成后,强迫症又发现默认的剧集名称臭长难视,那就果断改名呗!文件名主要有两类,形如:

[电影天堂www.dy2018.com]琅琊榜_21.720p未删减版.mp4 和

琅琊榜_20.720p未删减版[电影天堂www.dy2018.com].mp4,目标是变成这样的:琅琊榜_20.mp4。具体描述如下:

[4]. fileRename.py代码清单:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39# fileRename.py

# coding:utf-8

import os

import sys # 设置系统默认编码格式:utf-8

reload(sys)

sys.setdefaultencoding(‘utf8’)

def renameFiles(dirPath):

“指定文件目录,重命名该目录下以.mp4结尾的文件”

os.chdir(dirPath) # 切换到当前目录下

dirContent = os.listdir(dirPath)

for file in dirContent:

if file.startswith(“[“) and file.endswith(‘.mp4’):

temp = file.split(‘]’)

content = temp[1].split(“.”)

newName = content[0] + “.” + content[len(content) – 1]

os.rename(file, newName)

print file + ” -> ” + newName + ” ——> OK!”

elif file.endswith(“.mp4”):

temp = file.split(‘.’)

newName = temp[0] + “.” + temp[len(temp) – 1]

os.rename(file, newName)

print file + ” -> ” + newName + ” ——> OK!”

return;

def main_test():

“在当前模块中测试”

renameFiles(“D:迅雷下载”.encode(‘GBK’))

if __name__ == “__main__”:

main_test()

最终的效果如下所示(这就清爽多了):

python软件安装链接电视_Python爬虫程序:电视剧琅琊榜全集的自动化处理

最后,附上本爬虫源代码: 项目 github 地址

END!

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树网络爬虫urllib208539 人正在系统学习中 相关资源:iZotope Ozone VST (臭氧) V4.0.3.274 绿色汉化版.zip-制造工具类…

来源:weixin_39627430

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年11月1日
下一篇 2020年11月1日

相关推荐