写了个批量下载简书文章的工具

前言:这个脚本目前只能用来下载文本,也就是说下载下来的都是txt文件。以后可能会写输出pdf文件的脚本,以后的事以后再说啦┐(´_`)┌

前几天zhihu上有人问怎么批量下简书上的文章到kindle上看,恰好上个学期用了beautifulsoup,趁着手热,写了个简书的批量下载工具。以下是简单的使用方法,linux平台下使用很简单,就不细说了,主要记录下windows的使用过程。

1.首先从这里下载python2,安装就是各种下一步,没什么好说的。

2.从这里右键另存为下载get-pip.py,安装方法就按照网页上的安装。

get-pip

比如下载到了桌面上,就先进入桌面的路径,然后python get-pip.py即可。

3.安装BeautifulSoup,这东西大概理解可以理解为一个筛子,把网页中需要的东西筛选出来。安装方法是在cmd中运行安装命令:

pip install beautifulsoup4

bs4

至此脚本的运行环境已经安装完毕了。

4.从这里下载脚本,下载完解压出来。比如解压到了一个名叫jianshuDownloader-master的文件夹下。在jianshuDownloader-master中新建两个空文件——userlist.txt和notebooklist.txt。

userlist.txt中存放批量下载的用户名。比如我们想批量下载该用户的文章,url为http://www.jianshu.com/users/5104d005424d/latest_articles,我们需要的就是users/和/latest_articles中间的那串字符。简单来说可以把它看成用户的『身份证号』,能唯一识别出是哪个用户。

userlist.txt中可以存放多个用户的『身份证号』,比如我们想下载5104d005424d、7041c064cbd2、2659558557cc三位用户的所有文章,就把他们的『身份证号』每行存一个就行了。

userlist

userlist.txt中存放用户的『身份证号』

 

同理,notebooklist.txt中用来存放文集的编号。比如我们想下载这个这个这个三个文集中的所有文章。就把这三个文集的编号存到notebooklist.txt中,存的方法和userlist.txt的一样,也是一行一个。

notebook

notebooklist.txt里面存文集的编号

 

5.最后一步就是双击main.py,按照提示选择是按用户下载还是按文集下载了。

输入1按用户下载,输入2按文集下载。

由于现在是用正则直接把html里面的标签去掉,所以比较慢,不过既然是为了省鼠标,运行起来别管就好了...以后可能会抛弃这种做法,不过以后的事以后再说啦┐(´_`)┌

另外我也不知道为啥linux下和windows下速度差那么多...

还有windows的cmd里面一涉及到中文就烦得不行,直接用英文了...

下载完成之后会自动退出,然后下载好的txt就放在jianshuDownloader-master\data文件夹下了,在然后拷进kindle里看就好了。

IMG_20150212_052232

随便拷进去一篇文章,大概效果就是这样了

 

后记:这玩意儿纯属一个代码爱好者的练手作,请各位老爷要求不要太高。如果有问题我尽量修改