在 HBase 中,所有突变要么存储数据,要么将数据标记为删除;没有就地更新或删除之类的东西。 HappyBase 提供了进行单次插入或删除的方法,以及一次执行多个突变的批处理 API。查看全文>>
多进程爬虫一般也被视为分布式爬虫的基础,在单机上可以使用。通常来说大型网站采用分布式来部署服务器,能够采用多进程同时间在不同的服务器上进行爬取。查看全文>>
Python自带的urllib和urllib2,也可以使用requests这种第三方库,或者Scrapy框架。urllib和urllib2模块都可以做与请求URL相关的操作,但它们提供了不同的功能。查看全文>>
根据以往的MySQL使用经验,MySQL单表在 5000 万行以内时,性能较好,单表超过5000万行后,数据库性能、可维护性都会极剧下降。当然这时候可以做MySQL分库分表,如使用Mycat或Sharding-jdbc,分库分表能否能解决MySQL的问题呢?查看全文>>
循环复制是指将一个序列循环地复制多次,形成一个更长的序列。而双M结构是指将一个序列分为两个子序列,然后将它们交错组合,形成一个新的序列。查看全文>>