数据库

探究 | Elasticsearch不支持事务有什么好的弥补方案吗?

bigdataway 提交于 周一, 07/16/2018 - 13:57

1、问题

源自星球同学的提问:es如何与hive或mysql结合使用?es不支持事务有什么好的弥补方案吗?

2、事务的核心概念

如果一个数据库声称支持事务的操作,那么该数据库必须要具备以下ACID四个特性:

36氪独家 | 「海普洛斯」获数亿元 B 轮融资,将构建中国人肺癌、肠癌基因大数据库

bigdataway 提交于 周四, 06/28/2018 - 10:50

36氪获悉,我们曾介绍过的基因检测公司 海普洛斯 宣布,获得深创投领投的数亿元 B 轮融资。此前,海普洛斯获得的融资总额约为 2.7 亿元,投资方包括软银中国、优选资本、磐谷创投等。

浅谈大数据原理(一) 场景和挑战

bigdataway 提交于 周日, 06/24/2018 - 23:37

上一篇书评向大家推荐了 Desinging Data-Intensive Applications 这本书。由这本书启发,我也想整理一下自己在大数据这一块的知识体系。首先,我们要理解数据系统面对的场景和挑战,我们才能更好的理解其设计动机和原理。本文主要总结这些场景和挑战,会提到一些目前的相应技术,但不会展开讲。后续系列文章会渐渐深入分析这些技术。

爬虫老是被封IP?看我大Python搭建高匿代理池!封IP你觉得可能吗

bigdataway 提交于 周四, 06/21/2018 - 19:07

0x01 写在前面

常听到很多人抱怨自己的IP因爬虫次数太多而被网站屏蔽,不得不频繁使用各种代理IP,却又因为网上的公开代理大部分都是不能使用,而又要花钱花精力去申请VIP代理,几番波折又遭屏蔽。特此写一篇如何利用Python搭建代理池的文章,以降低时间及精力成本,实现自动化获取活跃代理IP的功能。