Comment Acquia a amélioré ses services de monitoring avec SignalFX

Au fur et à mesure que les entreprises se développent, des choses comme la visibilité dans votre infrastructure cloud, la surveillance de la disponibilité de vos services et la collecte et l'analyse de données à partir d'une grande variété d'applications deviennent essentielles au succès de l'organisation et de ses clients. Un effet secondaire malheureux et souvent inévitable de cette croissance, cependant, est qu'il peut souvent mettre l'accent sur les systèmes existants, ce qui précipite le besoin de technologies mises à jour, qui peuvent croître et à l'échelle au fil du temps.

À Acquia, les années de croissance des clients existants et les acquisitions de nouveaux clients nous ont obligés à augmenter la taille de notre flotte sur une base presque horaire. D'un point de vue commercial, cela a été phénoménal--un effet secondaire attendu d'une entreprise prospère--mais d'un point de vue opérationnel, il a été une indication précoce que nous atteindrions inévitablement une taille lorsque notre service d'origine Open-source de surveillance ne serait plus échelle pour répondre à nos besoins.

Avec tant de serveurs, de services et d'applications à surveiller, nous avons d'abord commencé le chemin d'essayer de construire nos propres services de surveillance il ya quatre ans. Alors que ce projet était en vol, nous avons également creusé du temps et des ressources pour construire des solutions «temporaires» pour nous aider à filtrer et à gérer le nombre croissant d'alertes générées par nos systèmes de surveillance existants. Ce que nous avons découvert dans les années qui ont suivi était, pour dire simplement, il était exceptionnellement difficile de consacrer le temps, les ressources et l'expertise nécessaires à une telle initiative quand il y a tant d'autres besoins et problèmes à aborder à travers notre ingénierie Organisation. En conséquence, nous avons finalement dû nous arrêter et nous demander: «est-ce quelque chose que nous devrions même faire?»

Au moment où nous nous sommes posé cette question, nous n'étions pas différents de beaucoup d'autres entreprises de notre taille: nous avions plus d'une douzaine de systèmes différents à travers différentes équipes pour le suivi et l'analyse; Il n'existait pas de gestion ou de contrôle centralisés pour ces systèmes, ce qui a conduit à des mesures et des interprétations contradictoires des données entre les produits; de plus, de nouvelles équipes se sont retrouvées à passer des semaines à l'évaluation, à la mise en œuvre, à la personnalisation et à la maintenance de nouveaux services de surveillance, tandis que nos produits et nos équipes primaires ont continué à utiliser notre solution de legs imparfaite.

La douleur qui en résulte a été ressentie à tous les niveaux d'Acquia, avec des équipes à travers l'organisation et partout dans le monde éprouvant des difficultés et des bloqueurs en raison des limitations de service de surveillance et des contraintes de bande passante qu'elles ont causées pour nos ingénieurs. Ils n'ont tout simplement pas pu trouver ou interpréter les données dont ils avaient besoin avec cohérence, efficacité ou facilité, et en même temps, nous ne pouvions même pas fournir à nos clients toutes les métriques essentielles de la santé du serveur dont ils avaient besoin pour optimiser la disponibilité et la performance de leur Applications.

En bref-nous avions besoin d'une nouvelle solution.

Choisir le service de surveillance adéquat

Nous n'avons pas seulement besoin d'un nouveau service de surveillance--nous en avions besoin pour gérer tous nos cas d'utilisation complexes le plus rapidement possible et sur un budget serré. Avec ces choses à l'esprit, nous avons identifié trois chemins possibles que nous pourrions prendre:

  1. Construire un nouveau service de surveillance à partir de zéro, dans la maison;
  2. Prenez une solution open source existante et personnalisez-la pour répondre à nos besoins; Ou
  3. Allez sur la route SaaS et trouver une entreprise/produit qui excelle dans cette arène, ce qui nous permet de se concentrer sur ce que nous faisons le mieux alors qu'ils se concentrent sur faire ce qu'ils font le mieux.

Les trois options avaient des attributs positifs et négatifs. Bien que l'option 1 nous permettrait de répondre à tous nos besoins précisément de la façon que nous voulions, nous avons estimé qu'il faudrait le plus de temps et d'argent pour accomplir, et nous aurions besoin de consacrer de façon permanente des ressources d'ingénierie pour maintenir et améliorer tout ce que nous fini par construire. L'option 2 exigerait moins d'efforts que l'option 1, mais elle exigerait toujours que nous maintenions les services et que nous soyons responsables de les mettre à niveau au fil du temps. Toutefois, l'option 3 représentait une tendance actuelle de l'industrie, où de plus en plus d'entreprises s'éloignent des services intégrés sur mesure, en faveur de solutions plug-and-Play.

L'option 3 semblait faire le plus de sens pour nous. Une offre SaaS nous fournirait un service facilement disponible avec 24/7 de soutien, une garantie de nouvelles fonctionnalités et d'innovations sur une cadence régulière, et la possibilité de personnaliser le service en fonction de nos besoins.

Prendre cette décision a été la partie facile-de déterminer quel service de surveillance Saas à confier avec une flotte aussi grande que Acquia a été beaucoup plus difficile. Quand il s'agissait de choisir un service de surveillance Saas, nous ne voulions pas limiter notre focalisation sur les caractéristiques techniques et les capacités d'une offre-nous avons également voulu regarder l'entreprise derrière les services. Tout le monde prétend qu'ils peuvent résoudre vos problèmes, mais comment savez-vous qui est vraiment le meilleur ajustement pour votre organisation?

Ainsi, lors de l'évaluation des entreprises Saas, nous avons examiné les questions suivantes:

  • Comment pourrions-nous implémenter cette solution, depuis l'installation et la personnalisation initiale jusqu'à la configuration des fonctionnalités?
  • Combien de travail serait-il de maintenir le service à long terme?
  • Quelles sont les limitations du service, et s'agit-il de disjoncteurs?
  • Quel est le plan de support du fournisseur et SLA?
  • S'agit-il d'une startup ou d'une entreprise établie?
  • Que disent les autres à leur sujet? Sont-ils souvent recommandés?
  • Quel est le coût?

Dans notre évaluation de plus d'une douzaine de solutions possibles, nous avons réduit nos options à trois entreprises avec les caractéristiques, les réputations et les fourchettes de prix que nous recherchions. De là, nous devions examiner ce qui différenciait chaque entreprise des autres. Avec plus de 15 000 cas dans notre flotte, notre principale préoccupation était qu'aucun de ces services ne serait en mesure d'ingérer le volume de données (millions de points de données par minute) que nous enverrions. Inutile de dire, lorsque deux des trois vendeurs étaient disposés à nous laisser tester leurs services sur toute notre flotte gratuitement, qui nous a montré à quel point ils étaient confiants dans leurs services.

Rester informé

Recevez le meilleur contenu sur le futur du marketing, les changements dans le secteur et les avis de nos experts.

À ce stade, nous avons également commencé à rechercher des commentaires auprès des clients actuels de chaque fournisseur. Cela a conduit à une découverte étonnante que nous ne nous attendions pas-que le service plus établi et populaire a été en fait très mal recommandé par les clients existants, nous avons parlé avec. Dans leurs revues, ces clients ont mentionné des inquiétudes au sujet des problèmes de rendement du produit à l'échelle, aussi bien que le manque de réactivité de la compagnie aux demandes de fonctionnalité et aux corrections de bogue.

Une des préoccupations finales que nous avons eues était l'âge des entreprises avec lesquelles nous travaillions. D'une part, nous pourrions confier notre flotte et des années d'investissement dans une entreprise qui a été considéré comme un leader de l'industrie dans l'espace de surveillance. D'autre part, nous pourrions investir dans une entreprise avec un beau, service innovateur, mais une expérience limitée et seulement des commentaires préliminaires des clients. Entre les deux était une entreprise avec une certaine expérience, de grands commentaires, et beaucoup de place pour grandir. Lorsque nous avons considéré que le concurrent le plus établi n'a pas été bien revu par certains clients existants, et a ensuite considéré le fait que nous aurions besoin de faire face aux douleurs de croissance de la plus jeune entreprise, la troisième société au milieu a été considérée comme la plus sûre option du point de vue de la responsabilité.

Gardant toutes ces informations à l'esprit, notre choix final a été SignalFX. Avec des prix compétitifs basés sur le nombre de métriques que nous envoyons chaque minute, nous pourrions affiner notre utilisation et contrôler nos coûts en fonction de nos besoins évolutifs au fil du temps. Leur fonctionnalité était également très proche de ce que nous avions besoin de la boîte, leurs commentaires des clients ont révélé une véritable excitation au sujet de leurs services, et ils nous ont assuré que nous pourrions fournir des commentaires de routine sur les nouvelles fonctionnalités et leur feuille de route pour assurer notre plus critique besoins ont été satisfaits.

Résultats SignalFX (jusqu'à présent)

SignalFX est un service de surveillance Saas qui ingère, restitue et analyse de gros volumes de données de serveur et d'application. Il a également des fonctions avancées d'alerte et de notification, qui peuvent être déclenchées chaque fois que les seuils que vous définissez sont violés. Avec une variété de mécanismes d'intégration possibles à notre disposition, Acquia a principalement utilisé la fourche SignalFX d'un agent de surveillance Open source appelé Collected. Cela nous a permis d'ajouter, d'activer et de personnaliser tous les plugins dont nous avons besoin pour garder un œil attentif sur les services spécifiques fonctionnant sur notre flotte (MySQL, Nginx, vernis, etc.).

Là où nous avons précédemment suivi un petit morceau d'opérations de serveur essentielles à travers notre flotte, nous sommes maintenant en mesure d'envoyer et d'analyser près de 300 métriques avec quatre fois plus de granularité que nous avions auparavant. Avec les idées que nous avons acquises, nous avons été en mesure d'identifier et de remédier à plus d'une douzaine de problèmes et d'inefficacités dans nos flottes, ce qui nous permet d'économiser plus de $600 000 par an en dépenses matérielles. Nous avons également pu améliorer la qualité globale des services que nous fournissons, en augmentant la visibilité de nos ingénieurs dans la santé de la flotte et des clients spécifiques, et en consolidant le nombre de services de surveillance que nos équipes doivent utiliser.

Prochaine étape pour Acquia and SignalFX

Avec la mise en œuvre rapide de SignalFX à travers nos flottes, nos équipes ont été en mesure de se concentrer sur l'optimisation, et non pas la construction et le maintien d'un système de surveillance de notre propre. Comme nous approchons des dernières étapes de l'obtention de tout ce dont nous avons besoin envoyé à SignalFX et configuré correctement, nous avons déjà commencé à regarder vers l'avenir et la planification de toutes les nouvelles fonctionnalités et passionnant que nous avons été désireux de construire, y compris:

  • Une nouvelle interface utilisateur StackView améliorée pour nos clients qui leur permettra de voir les métriques essentielles de la santé du serveur et tous les événements clés qui pourraient avoir affecté les performances du serveur ou de l'application.
  • Les mécanismes d'auto-remédiation d'incidents qui éliminent les efforts manuels gaspillés par nos équipes internes lorsque des problèmes communs sont détectés.
  • Nouveaux outils de diagnostic automatisés qui normaliseront et rationaliseront notre processus de réponse à l'incident en interne, ce qui réduira le temps de résolution lorsque des problèmes surgiront.
  • Mécanismes de surveillance et d'alerte prédictifs afin que nous puissions intercepter, étudier et résoudre les tendances anormales des mesures de la santé des serveurs clés avant que les services du client soient affectés de quelque manière que ce soit.

Chez Acquia, nous sommes extrêmement fiers de notre capacité à offrir aux clients des services de surveillance et de diagnostic de meilleure qualité, leur donnant la tranquillité d'esprit tout en se concentrant sur la création et l'optimisation d'applications critiques. Avec SignalFX disponible à travers notre flotte maintenant, nos produits et services continueront à s'améliorer.