Het DNS-cluster van SparkPost bereikte onverwacht een AWS-netwerkdoorvoerlimiet, waardoor DNS-opzoekingen af en toe mislukten — wat de levering van e-mails vertraagde.

Waarom ging DNS überhaupt stuk?

DNS is extreem afhankelijk van externe e-mail. Elke verzending vereist meerdere opzoekingen (MX, TXT, SPF, DKIM), dus een hoog verzendvolume = enorme DNS-verkeer. Dit verkeerspatroon overschreed een niet-gepubliceerde limiet op het EC2 instance type dat de nameservers host.

Hoe verschilt DNS voor e-mail van webapplicaties?

Web apps trekken meestal inhoud binnen (klanten vragen om gegevens). Email bezorgdiensten duwen verkeer , waardoor veel meer DNS-opzoeken worden geactiveerd — vaak miljarden per maand. Email is afhankelijk van DNS voor routering, veiligheidscontrole en failover.

Hoe manifesteerde de mislukking zich?

DNS-verzoeken begonnen te falen of liepen vast Bezorgingswachtrijen liepen vol Latentie nam toe in delen van het systeem Niets ging verloren — alleen vertraagd.

Waarom was dit moeilijk te diagnosticeren?

De limiet was niet gedocumenteerd AWS monitoring toonde niet expliciet de bottleneck Alle traditionele metrics (CPU, RAM, schijf) zagen er normaal uit Het probleem kwam alleen aan het licht onder een specifiek, hoog-volume DNS-verkeer patroon.

Hoe heeft SparkPost het opgelost?

Geüpgraded naar EC2-instantietypen met hogere netwerksnelheid plafond DNS-clusters opnieuw ontworpen om veerkrachtiger te zijn tegen pieken in het totale verkeer Samen met AWS gewerkt om betere signaal/waarschuwingspatronen te identificeren om dit eerder op te vangen

Is klantgegevens of mail verloren?

Nee — alleen de bezorging vertraagde. Zodra DNS gestabiliseerd was, werd alle post weer normaal bezorgd.

Wat is de bredere les?

Zelfs in de cloud, kun je onzichtbare schaalbeperkingen tegenkomen — maar cloud-native ontwerpen geven je de flexibiliteit om snel te herstellen. Elasticiteit, samenwerking met AWS, en sterke SRE-praktijken maken een snel herstel mogelijk.

De dag dat onze DNS een ongedocumenteerde limiet bereikte in AWS

Bird

7 feb 2017

Techniek

1 min read

De dag dat onze DNS een ongedocumenteerde limiet bereikte in AWS

Belangrijkste punten

- SparkPost ondervond een ongedocumenteerde netwerkdoorvoerlimiet op een specifiek AWS EC2-instance-type dat zijn primaire DNS-cluster aandreef.
- Traditionele instance-grootte (CPU, RAM, schijf) onthulde deze flessenhals niet omdat het probleem verband hield met geaggregeerd DNS-netwerkverkeer, niet met resource-uitputting.
- DNS-gebruik voor uitgaande e-mail met een hoog volume is ongewoon zwaar: SparkPost genereert miljoenen DNS-lookups voor domeinroutering, authenticatie (SPF/DKIM) en AWS API-interacties.
- De DNS-fout was niet het gevolg van onjuiste DNS-antwoorden — in plaats daarvan werden de netwerkcapaciteitsdrempels op instance-niveau stilletjes overschreden, wat wijdverspreide opzoekfouten veroorzaakte.
- Omdat AWS deze zachte netwerkbeperkingen niet expliciet documenteert, vereiste het diagnosticeren van het probleem nauwe samenwerking tussen het SRE-team van SparkPost en AWS-ingenieurs.
- Het team loste het probleem op door DNS-services te migreren naar grotere instance-types met meer netwerkbandbreedte en delen van de DNS-architectuur opnieuw te ontwerpen voor betere isolatie en failover.
- Er gingen geen klantgegevens of berichten verloren, maar de gebeurtenis benadrukte hoe cloud-native architecturen onverwachte limieten op schaal kunnen bereiken — en hoe snel ze kunnen worden opgelost met AWS-elasticiteit.

Q&A Hoogtepunten

Wat is er gebeurd?
Het DNS-cluster van SparkPost bereikte onverwacht een AWS-netwerkdoorvoerlimiet, waardoor DNS-opzoekingen af en toe mislukten — wat de levering van e-mails vertraagde.
Waarom ging DNS überhaupt stuk?
DNS is extreem afhankelijk van externe e-mail. Elke verzending vereist meerdere opzoekingen (MX, TXT, SPF, DKIM), dus een hoog verzendvolume = enorme DNS-verkeer.
Dit verkeerspatroon overschreed een niet-gepubliceerde limiet op het EC2 instance type dat de nameservers host.
Hoe verschilt DNS voor e-mail van webapplicaties?
- Web apps trekken meestal inhoud binnen (klanten vragen om gegevens).
- Email bezorgdiensten duwen verkeer, waardoor veel meer DNS-opzoeken worden geactiveerd — vaak miljarden per maand.
  Email is afhankelijk van DNS voor routering, veiligheidscontrole en failover.
Hoe manifesteerde de mislukking zich?
- DNS-verzoeken begonnen te falen of liepen vast
- Bezorgingswachtrijen liepen vol
- Latentie nam toe in delen van het systeem
  Niets ging verloren — alleen vertraagd.
Waarom was dit moeilijk te diagnosticeren?
- De limiet was niet gedocumenteerd
- AWS monitoring toonde niet expliciet de bottleneck
- Alle traditionele metrics (CPU, RAM, schijf) zagen er normaal uit
  Het probleem kwam alleen aan het licht onder een specifiek, hoog-volume DNS-verkeer patroon.
Hoe heeft SparkPost het opgelost?
- Geüpgraded naar EC2-instantietypen met hogere netwerksnelheid plafond
- DNS-clusters opnieuw ontworpen om veerkrachtiger te zijn tegen pieken in het totale verkeer
- Samen met AWS gewerkt om betere signaal/waarschuwingspatronen te identificeren om dit eerder op te vangen
Is klantgegevens of mail verloren?
Nee — alleen de bezorging vertraagde. Zodra DNS gestabiliseerd was, werd alle post weer normaal bezorgd.
Wat is de bredere les?
Zelfs in de cloud, kun je onzichtbare schaalbeperkingen tegenkomen — maar cloud-native ontwerpen geven je de flexibiliteit om snel te herstellen.
Elasticiteit, samenwerking met AWS, en sterke SRE-praktijken maken een snel herstel mogelijk.

We kwamen ongewenste praktische beperkingen tegen van de EC2-instances die we gebruikten voor onze primaire DNS-cluster. Het bepalen van de grootte van cloud-instances op basis van traditionele specificaties (processor, geheugen, enz.) werkt meestal zoals je zou verwachten, maar soms geldt dat traditionele hardwaremodel niet.

Hoe We Ongewone DNS-fouten in AWS Opspoorden

We hebben SparkPost gebouwd rond het idee dat een clouddienst zoals de onze ook cloud-native moet zijn. Dat is niet alleen maar bluf. Het is onze cloudarchitectuur die de schaalbaarheid, elasticiteit en betrouwbaarheid ondersteunt die kernaspecten van de SparkPost-dienst zijn. Die kwaliteiten zijn belangrijke redenen waarom we onze infrastructuur bovenop Amazon Web Services (AWS) hebben gebouwd—en het is waarom we onze klanten servicelevel- en burst-rate-garanties kunnen bieden die ongeëvenaard zijn door iemand anders in het bedrijf.

Maar we doen niet alsof we nooit worden uitgedaagd door onverwachte bugs of beperkingen van beschikbare technologie. We kwamen afgelopen vrijdag in iets dergelijks terecht, en dat incident leidde tot intermitterende traagheid in onze service en leveringsvertragingen voor sommige van onze klanten.

Eerst wil ik zeggen dat het probleem diezelfde dag is opgelost. Bovendien zijn er geen e-mails of gerelateerde gegevens verloren gegaan. Als de levering van uw e-mails door dit probleem is vertraagd, accepteert u alstublieft mijn verontschuldiging (in feite een verontschuldiging van ons hele team). Dit incident onderstreepte het belang van het hebben van uitgebreide back-up strategieën - of u nu PostgreSQL database back-ups gebruikt of andere gegevensbeschermingsmethoden om de bedrijfscontinuïteit te waarborgen tijdens infrastructurele uitdagingen. We weten dat u op ons rekent, en het is frustrerend wanneer we niet presteren op het niveau dat u verwacht.

Sommige bedrijven zijn geneigd om problemen zoals een dienstdegradatie onder het tapijt te schuiven en hopen dat niemand het merkt. U heeft dat misschien ervaren met diensten die u in het verleden heeft gebruikt. Ik weet dat ik dat heb. Maar zo doen wij geen zaken.

Ik wilde om een andere reden ook over dit incident schrijven: we hebben iets heel interessants en waardevols geleerd over onze AWS cloudarchitectuur. Teams die andere clouddiensten bouwen, kunnen er wellicht geïnteresseerd in zijn om er meer over te weten te komen.

TL;DR

We zijn tegen ongedocumenteerde praktische limieten aangelopen van de EC2-instances die we gebruikten voor ons primaire DNS-cluster. Het kiezen van cloud-instances op basis van traditionele specificaties (processor, geheugen, enz.) werkt meestal zoals je zou verwachten, maar soms geldt dat traditionele hardwaremodel niet. Dat geldt vooral in atypische gebruikssituaties waar cumulatieve limieten een rol kunnen spelen—en er zijn momenten waarop je onverwachts met die scenario's geconfronteerd wordt.

We stuitten op zo'n limiet op vrijdag toen ons DNS-vraagvolume een netwerkgebruikpatroon creëerde waarvoor ons instance-type niet was voorbereid. Echter, omdat die limiet niet duidelijk was uit de documentatie of standaard beschikbare metrics, wisten we niet dat we het hadden bereikt. Wat we observeerden was een zeer hoge mate van DNS-fouten, wat op zijn beurt leidde tot intermitterende vertragingen op verschillende punten in onze architectuur.

Dieper graven in DNS

Waarom is ons DNS-gebruik speciaal? Nou, het heeft veel te maken met de manier waarop e-mail werkt, vergeleken met het contentmodel waarvoor AWS oorspronkelijk is ontworpen. Webgebaseerde contentlevering maakt veel gebruik van wat kan worden beschouwd als klassieke inkomende 'pull'-scenario's: een client vraagt om gegevens, zij het HTML, videostreams of iets anders, uit de cloud. Maar de use cases voor messaging service providers zoals SparkPost zijn uitzonderingen op het gebruikelijke AWS-scenario. In ons geval doen we veel uitgaande push-verkeer: specifiek, e-mail (en andere berichttypen zoals SMS of mobiele pushmeldingen). En dat push-stijl verkeer is sterk afhankelijk van DNS.

Als je bekend bent met DNS, weet je misschien dat het over het algemeen vrij lichte gegevens zijn. Om een bepaalde HTML-pagina op te vragen, moet je eerst vragen waar die pagina te vinden is op het internet, maar die aanvraag is slechts een fractie van de grootte van de inhoud die je ophaalt.

E-mail daarentegen maakt uitzonderlijk zwaar gebruik van DNS om afleveringsdomeinen op te zoeken—bijvoorbeeld, SparkPost verzendt elke maand vele miljarden e-mails naar meer dan 1 miljoen unieke domeinen elke maand. Voor elke e-mail die we leveren, moeten we minimaal twee DNS-opzoekingen uitvoeren, en het gebruik van DNS 'txt'-records voor anti-phishingtechnologieën zoals SPF en DKIM betekent dat DNS ook nodig is om mail te ontvangen. Voeg daarbij ons meer traditionele gebruik van AWS API-diensten voor onze apps, en het is moeilijk te overdrijven hoe belangrijk DNS is voor onze infrastructuur.

Dit alles betekent dat we stuitten op een ongebruikelijke situatie waarin ons groeiende volume aan uitgaande berichten een DNS-verkeervolume creëerde dat een totale netwerkdoorvoerlimiet bereikte op instantie-types die anders voldoende middelen leken te hebben om die belasting te verwerken. En zoals denial-of-service-aanvallen op de Dyn DNS-infrastructuur vorig jaar aantoonden, als DNS stukgaat, gaat alles stuk. (Dat is iets wat iedereen die systemen bouwt die afhankelijk zijn van DNS al pijnlijk goed weet.)

De plotselinge DNS-problemen triggerden een reactie van onze operaties- en betrouwbaarheidstechniekteams om het probleem te identificeren. Ze werkten samen met onze partners bij Amazon om de escalatie aan de AWS-operatiekant te verhogen. Samen identificeerden we de oorzaak en een oplossing. We hebben een cluster van nameservers met grotere capaciteit ingezet, met een grotere focus op netwerkcapaciteit die onze DNS-behoeften kon vervullen zonder in de rode lijnen voor doorvoer terecht te komen. Gelukkig, omdat dit allemaal binnen AWS plaatsvond, konden we de nieuwe instanties snel opstarten en zelfs bestaande instanties erg snel vergroten. DNS hervatte normaal gedrag, opzoekingsfouten hielden op, en wij (en de uitgaande bezorging van berichten) waren weer op het goede spoor.

Om dit specifieke probleem in de toekomst te voorkomen, maken we ook wijzigingen in de DNS-architectuur om onze kerncomponenten beter te isoleren tegen de impact van vergelijkbare, onverwachte drempels. We werken ook samen met het Amazon-team om geschikte monitoringsmodellen te bepalen die ons voldoende waarschuwing geven om een soortgelijk incident af te wenden voordat het een van onze klanten treft.

AWS en de Silver Lining van de Cloud

Ik wil de impact van dit incident op onze klanten niet verbloemen. Maar ons vermogen om het onderliggende probleem te identificeren als een onverwachte interactie van ons gebruiksscenario met de AWS-infrastructuur—en vervolgens zeer snel een oplossing ervoor te vinden—heeft veel te maken met hoe we SparkPost hebben gebouwd, en onze geweldige relatie met het Amazon-team.

SparkPost’s uitstekende operatieteam, ons Site Reliability Engineering (SRE)-team, en onze belangrijkste technische architecten werken elke dag met Amazon samen. De sterke punten van AWS' infrastructuur hebben ons een echt voordeel gegeven bij het optimaliseren van SparkPost’s architectuur voor de cloud. Door de afgelopen twee jaar zo nauw met AWS samen te werken, hebben we ook veel geleerd over het snel opzetten en beheren van AWS-infrastructuur, en we hebben ook het voordeel van uitgebreide ondersteuning van het AWS-team.

Als we met een vergelijkbare beperking moesten omgaan in een traditioneel datacentermodel, zou zoiets dagen of zelfs weken in beslag kunnen nemen om volledig op te lossen. Die wendbaarheid en responsiviteit zijn slechts twee van de redenen waarom we onze zaak op de cloud en AWS hebben gevestigd. Samen is het soort cloud-expertise dat onze bedrijven delen moeilijk te verkrijgen. Amazon is een geweldige zakenpartner voor ons geweest, en we zijn er echt trots op wat we hebben gedaan met de AWS-stack.

SparkPost is de eerste e-mailbezorgdienst die vanaf het begin voor de cloud is gebouwd. Deze cloud-native aanpak is fundamenteel voor hoe we onze e-mail-API's voor cloudinfrastructuur ontwerpen, wat zorgt voor schaalbaarheid en betrouwbaarheid voor ontwikkelaars. We versturen meer e-mail vanaf een echt cloudplatform dan wie dan ook, en soms betekent dat het betreden van onontgonnen gebied. Het is een fundamentele waarheid van de computerwetenschap dat je niet weet welke uitdagingen zich voordoen op schaal totdat je ze tegenkomt. We vonden er één op AWS, maar onze snelle reactie is een goed voorbeeld van de flexibiliteit die de cloud mogelijk maakt. Het is ook onze inzet voor onze klanten.

Of je nu je eigen infrastructuur op AWS bouwt, of een SparkPost-klant die gebruikmaakt van die van ons, ik hoop dat deze uitleg van wat er afgelopen vrijdag is gebeurd, en hoe we het hebben opgelost, nuttig is geweest.

Andere nieuws

Lees meer uit deze categorie

E-mail

RESTful API Versievormings Best Practices: Waarom v1 de #1 is

E-mail

Een dashboardtool met Bird API's

E-mail

Een Bulk Asynchroon Bird Ontvanger Validatie Tool Bouwen

E-mail

RESTful API Versievormings Best Practices: Waarom v1 de #1 is

E-mail

Een dashboardtool met Bird API's

E-mail

RESTful API Versievormings Best Practices: Waarom v1 de #1 is

E-mail

Een dashboardtool met Bird API's

A person is standing at a desk while typing on a laptop.

Het complete AI-native platform dat met uw bedrijf meegroeit.

Neem contact op met sales

Begin gratis

Neem contact op met Support

Het complete AI-native platform dat met uw bedrijf meegroeit.

Neem contact op met sales

Begin gratis

Neem contact op met Support

Het complete AI-native platform dat met uw bedrijf meegroeit.

Neem contact op met sales

Begin gratis

Neem contact op met Support

De dag dat onze DNS een ongedocumenteerde limiet bereikte in AWS

Belangrijkste punten

Q&A Hoogtepunten

Wat is er gebeurd?

Waarom ging DNS überhaupt stuk?

Hoe verschilt DNS voor e-mail van webapplicaties?

Hoe manifesteerde de mislukking zich?

Waarom was dit moeilijk te diagnosticeren?

Hoe heeft SparkPost het opgelost?

Is klantgegevens of mail verloren?

Wat is de bredere les?

Hoe We Ongewone DNS-fouten in AWS Opspoorden

TL;DR

Dieper graven in DNS

AWS en de Silver Lining van de Cloud

Andere nieuws

Lees meer uit deze categorie

RESTful API Versievormings Best Practices: Waarom v1 de #1 is

Een dashboardtool met Bird API's

Een Bulk Asynchroon Bird Ontvanger Validatie Tool Bouwen

RESTful API Versievormings Best Practices: Waarom v1 de #1 is

Een dashboardtool met Bird API's

RESTful API Versievormings Best Practices: Waarom v1 de #1 is

Een dashboardtool met Bird API's

Nieuwsbrief

Het complete AI-native platform dat met uw bedrijf meegroeit.

Product

Oplossingen

Resources

Company

Binnenkort beschikbaar

Sociaal

Product

Oplossingen

Resources

Company

Binnenkort beschikbaar

Sociaal