Github开源项目,开源代码网站github
今年的第一个项目python,在获取近8000本网上出版的计算机电子书的基础上,简要分析了计算机专业的发展变化。下载一些分类书籍的链接请参考文末。代码的链接请参考文末。
计算机诞生不到一百年,就有好几本关于学术、技术或无云计算机的书。不翻墙,在某知名学术网站上搜索到的计算机科学书籍有25600本。
为了囤书,本着网络共享的精神,开发了python爬虫,在网上发布免费的电子书资源。主要技术特性(欢迎访问github了解更多源代码技术细节,文末链接
下载urlretrieve或URL Lopen,文件。
提取熊猫,文件信息和错误信息,写入数据库,进行统计计算,然后导出到excel。
线程化实现多线程并行下载,单个生产者提取下载链接,通过队列传递给多个消费者进行下载。
锁定以防止数据库和文件写入之间的冲突。
判断服务器是否拒绝访问和超时,并自动等待重新启动的结构。
目前已收购计算机电子书近8000本。(肯定是不完整的,但是这几代人是读不完8000的。用手捂住脸。)其实可以下载7700多份。主要是pdf格式的。其中200多人有问题,正在努力反馈到反馈网站。
这些书总共包含110个关键词标签。按照关键词分类,可以看到以下区别。
放大到前15名,Java仍然是排名第一的流行语言(虽然我们用Python攀上了它)。当然,我们Python也不弱。不管怎样,跟着的都是二爷爷。而且在下面,以JavaScript,C,C为主流,各种论坛经常出现高低之争的场面。
不难发现,玩硬件的人很多。网络编程、游戏编程、网络开发也很吃香,就业很吃香。然而,也有可能包括几本关于人工智能、机器学习和大数据的书。这是现在的热门作品。
从每年的变化来看。2000年后,计算机书籍数量成倍增长,专家越来越吃香。2016年以后书籍的减少,应该和新书出版后没有被网友分享,以及这几年版权意识的提高有关。
前十大类,画雷达图(绝对数)和百分比条形图(相对数)。
从绝对数量来看,2013年关于Java和游戏编程的书籍更多。Python,JavaScript会慢一些。但从相对数量来看,Java的份额有所下降,python呈现出逆转趋势。
以上分析来自少量公开免费下载的计算机书籍,纯属娱乐,更重要的是识别给我看代码~~
源代码请到ZZ-I coding/allitebookscraplergithub . com。
有电子书又整理了一句话,供参考。爱编码:计算机电子书免费资源(中文)Zhuanglan.Zhihu.com爱编码:计算机电子书免费资源)英文)Zhuanglan.Zhihu.com