Site Reliability Engineering

Инженерия надежности сайтов, или SRE, — это дисциплина, которая объединяет операции и разработку программного обеспечения. Последняя применяется к проблемам инфраструктуры и операций, в частности. Это означает, что вместо создания функций продукта инженеры надежности сайтов строят системы для запуска приложений. Существуют сходства с DevOps, но в то время как DevOps сосредоточен на доставке кода в производство, SRE обеспечивает правильную работу кода в производственной среде.

Какую проблему решает

Обеспечение [надежной] работы приложений (/reliability/) требует множества возможностей: от мониторинга производительности, оповещения, отладки до устранения неполадок. Без этих возможностей операторы систем могут только реагировать на проблемы, вместо того чтобы проактивно работать над их предотвращением — простой становится лишь вопросом времени.

Как именно решает проблему

Подход SRE минимизирует затраты, время и усилия на процесс разработки программного обеспечения, постоянно улучшая основную систему. Система непрерывно измеряет и отслеживает компоненты инфраструктуры и приложений. Когда что-то идет не так, система указывает инженерам надежности сайтов на то, когда, где и как это исправить. Такой подход позволяет создавать высоко масштабируемые и надежные программные системы за счет автоматизации операционных задач.


Последнее изменение November 4, 2024: localize site-reliablity-engineering.md into russian (14de155)