Swift SDK v1.0.0-beta 版发布了,我们的实时通信服务发生了故障

摘要即时通讯云服务商LeanCloud已发布Swift版SDK。以下来自LeanCloud官方消息:今天我们非常高兴地宣布
Swift SDK v1.0.0-beta 版发布了!欢迎 Apple
开发者们使用,为我们提供反馈和建议。版本 v1.0.0-beta
主要支持数据存储、云引擎和短信,兼容 Swift 2
并且开源。部署到云引擎和对服务端的支持会在后续版本中支持。基于 Swift
SDK,我们可以很容易地创建数据对象,将其保存到云端。下面举几个例子,大家一看便知。创建一个帖子,并存入云端:let
post = LCObject(className: “Post”)post.set(“title”, object: “Hello,
Swift!”)post.set(“content”, object: “I love her song.”)let result =
post.save()查询某个帖子:let query = LCQuery(className:
“Post”)query.whereKey(“title”, .MatchedSubstring(“Swift”))let result =
query.find()注册并创建一个用户:let user = LCUser()user.username =
“swift”user.password = “qwert”let result =
user.signUp()具体的安装步骤请参考安装指南。如果在使用过程中遇到问题或者有任何建议,可以直接在我们的GitHub
仓库中提交 issue,也可以访问论坛或提交工单来获得支持。访问官网 SDK
专区可以获得更多语言平台的 SDK。

摘要即时通讯云服务商LeanCloud
2016年6月30日因一组负责实时通信服务数据统计的缓存机器发生故障,而导致雪崩致使即时通讯服务瘫痪43分钟之久!以下消息来自LeanCloud官方:6
月 30 日晚上 8
点左右,我们的实时通信服务发生了故障,导致大量应用的终端用户无法登录和发送消息,时间持续约
40 分钟,详细情况汇总如下。故障时间2016-06-30日 19:58 - 20:41(共计 43
分钟)影响范围LeanCloud
国内节点的实时通信服务受到影响(无法登录和发送消息),其它服务正常;美国节点一切服务正常。事故经过19:58
一组负责实时通信服务数据统计的缓存机器发生故障,导致用户登录或发送消息出现阻塞,类似操作开始消耗内部线程池资源;20:05
线程池资源耗尽,所有用户登录过程都会失败;20:22
确定了故障原因,开始重启缓存服务程序,但是服务程序所在机器因为压力过大失去响应,转而重启物理机器;20:33
缓存服务恢复正常,登录和发消息等请求开始恢复正常(为了加速我们新增了部分实时通信服务程序,以增加响应能力);20:41
实时通信服务恢复正常。下图中的黄线是故障时段前后的登录请求数量变化趋势曲线,与上述故障时间线吻合:后续改进措施聊天服务监控程序改由
Marathon
来自动部署并执行。该监控程序因前期的一次操作而被暂停,结果未能捕捉到此次服务异常,所以我们加入程序化的手段来保证其始终运行。(已完成)增加对统计数据缓存服务的监控。(已完成)增加对于登录请求数异常变化的监控。(已完成)进一步优化实时通信服务的架构,针对所有环节做好容错,防止类似的阻塞操作再次出现。(一周内解决)即时通讯云
LeanCloud 官方网站:

摘要即时通讯云服务商LeanCloud
2016年7月13日因由于突发硬件故障,导致雪崩致使即时通讯服务瘫痪48分钟之久!以下消息来自LeanCloud官方:7
月 13 日早上 9
点左右,我们内部在使用中国节点的应用控制台时遇到报错,于是很快便定位到某一集群由于突发硬件故障而引起存储服务中断,经过抢修问题得以解决。大约一小时后正当我们在继续对该集群进行加固处理时,突然遇到流量高峰,该集群的性能逐渐下降并再次发生了故障。此次故障影响到中国节点上
20%
的应用无法使用存储及其依赖服务,如实时通信、云引擎等。美国节点不受影响。故障时间及范围08:49

  • 09:08:存储服务内部某一集群发生硬件故障,导致 20%
    的应用的存储服务中断(约 19 分钟)。09:53 –
    10:22:该集群受到流量冲击后性能降低并再次瘫痪(约 29
    分钟)。前后共持续约 48
    分钟。事故过程08:49:应用控制台出现报错,立即进行排查。08:56:发现某个集群硬件故障,导致集群性能不断降低,响应过于缓慢,到几乎不可用。09:08:隔离故障机器,重启相关服务后,集群慢慢恢复了正常。09:53:有大量连接涌入,堵塞了存储系统的读写队列,使得该集群性能再次下降。09:58:该集群响应过于缓慢,几乎不可用。开始阻断连接,扩充集群并重启集群上的相关服务。10:22:集群服务逐步恢复,并重新开放连接。后续改进措施加强对集群硬件失败的监控和报警。提高自动化故障处理能力,降低系统
    downtime
    时间。尽快升级底层存储系统的存储引擎,减少读写队列拥塞的可能性,进一步提升服务性能。LeanCloud官方地址:

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注