数据库

【毕设进行时-工业大数据,数据挖掘】Java 数据库写入两百万条记录!

bigdataway 提交于 周一, 04/16/2018 - 18:25

正文之前

今天又浪了一天!我简直是不能原谅自己了!!!可耻!!!

所以,还是把那200万条数据写入到数据库里边吧!没想到这还是个有技术性的活!折腾了个把小时才弄好!我也是太菜了!!!

正文

现在还在上传,我估摸着这初期100万条数据得好几分钟才能上传完毕!心痛

如何进行大数据的入门级学习?

bigdataway 提交于 周一, 04/16/2018 - 18:25

不知道你是计算机专业应届生还是已经从业者。总之,有java基础的学生学习大数据会轻松很多,零基础的小白都需要从java和linux学起。

如果你是一个学习能力特别强,而且自律性也很强的人的话可以通过自学。

对于能够学的会的人来讲(学不会就不用自学了)自学的最大缺点就是无法找到真正的大数据实训项目。

用typescript开发爬虫实践

bigdataway 提交于 周五, 04/13/2018 - 12:48

最近刚学typescript,想着能用来做点什么,顺便也练练手,加之最近也有个想法,前提是需要解决数据来源的问题,所以尝试一下能不能用ts来写一个爬虫,然后存到数据库里面为我所用,下面就是我的实践过程

配置开发环境

全局安装typescript

妈妈再也不用担心爬虫被封号了!手把手教你搭建Cookies池

bigdataway 提交于 周二, 04/10/2018 - 16:18

很多时候,在爬取没有登录的情况下,我们也可以访问一部分页面或请求一些接口,因为毕竟网站本身需要做SEO,不会对所有页面都设置登录限制。

但是,不登录直接爬取会有一些弊端,弊端主要有以下两点。

Python爬虫(14):搭建免费异步IP代理池

bigdataway 提交于 周日, 04/08/2018 - 01:19

之前写爬虫的时候,经常遇到被封IP的情况。解决办法是控制爬虫请求的时间,这样效率低很多,而且一般网站都会有ip访问阈值监控,超过访问阈值仍然可能会被封。最直接的办法是更换ip,如果可以建议选择付费的代理服务,省事又便捷。当然网上也有很多免费代理,只不过这些代理能不能使用就需要我们自己去检测。

爬虫如何判断一个页面更新了?

bigdataway 提交于 周五, 04/06/2018 - 20:07

一个网页距离爬虫上次访问是否更新了,这个是重要但是又非常难判断的问题。如果只是一次性抓取来一些数据来用,那这个问题无关紧要。但是通常情况下,我们抓到一个页面之后,还需要知道这个页面的后续变化,如果内容变了,必须再抓一次,让我们数据库保存的数据保持与目标页面的同步。

前好耶&西班牙电信大数据专家赵乾坤:万物皆为数,传统数据库概...

bigdataway 提交于 周五, 04/06/2018 - 08:37

图丨赵乾坤

赵乾坤博士为壹看板创始人兼CEO 数据挖掘专家,先后毕业于华中科技大学、新加坡南洋理工大学,并于美国宾夕法尼亚大学完成搜索引擎相关的博士后研究。其相关的研究和应用在国际知名学术会议(WWW,KDD,AAAI,CIKM 等)上发表了 20 余篇论文和讲座,2 项国际的专利技术。