Get busy living

Stay Hungry,Stay Foolish


  • 首页

  • 分类

  • 归档

  • gitbook

  • 关于

  • 搜索

数据库分类

发表于 2019-01-14 | 分类于 mysql学习
数据库分类 关系型数据库 (MySQL,SQLServer,MariaDB,ORACLE等) 非关系型数据库 (mongoDB,redis等) 非关系型数据库分类1 . 文档型2 . key-value型3 . 列式数据库4 . 图形数据库
阅读全文 »

爬虫整理(四)多进程分布式与异步

发表于 2018-12-25 | 分类于 python练习
有的时候,爬取速度不快,就要想一些其他的办法。比如多进程多线程以及异步。不过一般的网站都会对其有限制,所以还得看实际情况具体来选取爬虫方式。爬虫并不复杂。爬虫更关键的是在,爬虫,反爬虫和反反爬虫这一块。 多进程分布式与异步的代码如下: 12345678910111213141516171819202 ...
阅读全文 »

爬取百度百科词条写入数据库

发表于 2018-12-25 | 分类于 python练习
这是在把百度百科上从一个词条中,随机选择一个关键字,然后从这个关键词的词条中,继续这样一个步骤,同时保存到数据库。如果遇到某词条下没有其他关键字,就会返回到上一个关键字处,目前有一个问题,就是两条关键词都只有一个的话,会进入循环。数据库中可以设置url唯一数据库这一块的操作,得先安装pymysql。 ...
阅读全文 »

读取TXT_PDF

发表于 2018-12-25 | 分类于 python练习
这个是我学习爬取TXT和PDF的代码,前半段是读取TXT,后半段是读取PDF,PDF中使用了第三方库,pdfminer3k,使用pip安装即可。pip install pdfminer3k。PDF其中注释掉的为读取网络上的PDF文档。代码如下: 123456789101112131415161718 ...
阅读全文 »

爬虫整理(五)slenium

发表于 2018-12-25 | 分类于 python练习
首先使用pip安装并加入环境变量123456789101112131415161718192021222324from selenium import webdriverfrom selenium.webdriver.chrome.options import Options# firefox pl ...
阅读全文 »

PandaTV爬取主播人气并排序

发表于 2018-12-25 | 分类于 python练习
很早前,第一次爬虫,就用的re加urllib原生爬虫。这次重新来爬取一次PandaTV主播人气排名,来练一下手。毕竟看直播嘛,颜值区更喜欢一点。就以颜值区为例,颜值区url = ‘https://www.panda.tv/cate/yzdr'。结果保存在运行目录下的`PandaTV主播人气排 ...
阅读全文 »

慕课网数据采集总结

发表于 2018-12-25 | 分类于 python练习
https://www.imooc.com/video/12637 课程地址
阅读全文 »

爬虫整理(一)使用re和urllib

发表于 2018-12-25 | 分类于 python练习
完整代码123456789101112131415161718192021from urllib.request import urlopenhtml = urlopen( "https://morvanzhou.github.io/static/scraping/basic-str ...
阅读全文 »

爬虫整理(三)Requests

发表于 2018-12-25 | 分类于 python练习
Requests 是一个 Python 的外部模块, 需要手动安装. 使用 pip 安装就好了. 1234567import requestsimport webbrowser # 使用浏览器打开param = {"wd": "itswl.github&q ...
阅读全文 »

爬虫整理(二)BeautifulSoup

发表于 2018-12-25 | 分类于 python练习
BeautifulSoup 解析:基础本段完整代码 具体安装过程可自行搜索。beautifulSoup使用过程 选择要爬的网址 (url) 使用 python 打开这个网址 (urlopen等) 读取网页信息 (read() 出来) 将读取的信息放入 BeautifulSoup 使用 Beauti ...
阅读全文 »
1…26272829
WeiLai

WeiLai

好学近乎知,力行近乎仁,知耻近乎勇

289 日志
22 分类
4 标签
GitHub E-Mail 简书 Facebook
© 2024 WeiLai