上文中我们已经大致明白了pydub库的使用方法,今天的目标是写个爬虫爬取歌曲信息。
关于网络爬虫,Python的标准库里是有相应的包的,可以直接打开:https://docs.python.org/zh-cn/ 去看Python相应版本的的官方中文文档(这个网站很有用,推荐学Python的小伙伴收藏),当然官方文档一般比较晦涩,可以再搜一些教程配合食用最佳。
通过学习了解到关于python网络爬虫可以使用传统的urllib库或者更高级的 Requests库,这里暂时选用urllib。其中urllib.request模块用于打开url,用法如下:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)看起来很复杂,不过其他的默认可以不填,我们只需给出url参数就行了。打开百度百科搜索烟花易冷,发现网页url是这样的:https://baike.baidu.com/item/烟花易冷 /211 ,粘贴复制到文本后是这样的:https://baike.baidu.com/item/烟花易冷/211 ,看来浏览器自动进行了编码转化,尝试更改url,输入:https://baike.baidu.com/item/七里香 ,转到,成功进入七里香的百度词条界面,不过url自动更新为了:https://baike.baidu.com/item/七里香/2181450 (能用就行,选择性忽视)。观察网页,可以发现我们需要的信息是这样的: