March 28, 2023

Переезд из Slack в Mattermost (3)

Часть 1: https://levaminov.ru/z3TpTpYSK4J

Часть 2: https://levaminov.ru/Rmks9ZZ7RLl

И вот мы опять вернулись к исследованию производительности Mattermost, если не считать дублирующихся сообщений в больших тредах, то все было хорошо и нормально, но эти дубли, в процессе разбора инцидентов, просто выносили всем мозг. При этом у самого сервера никаких серьезных ошибок не фиксируется:

Раньше мы, в случае проблем, натыкались на какие-то ошибки подключения к базе, лимитам по коннектам, сейчас только таймату API. При этом график этих самых таймаутов методов совпадал с ошибками закрытия соединений в nginx:

Тут стало понятно, что есть какие-то таймауты со стороны сервера Mattermost, которые на это влияют, обратились к документации:

Проверяем, что у нас:

Нам так и не удалось выяснить, откуда взялись эти значения, возможно, мигрировало из нашей инсталляции, которая была развернута и управлялась оператором (там ресурсы на кластер выделяются относительно "размера" кластера в пользователях), возможно неудачная миграция с одного мажора на другой... непонятно. Поменяли значения на дефолтные – ошибки пропали, дубли пропали тоже.

После изменений так же упала нагрузка с сервера и базы, поэтому статистику по каналу, которую мы отключали в прошлом заходе, мы вернули обратно.

Заметил, что это не первая задача за последние пару дней, решение которой происходит в процессе объяснения другому инженеру что делать и с чего начинать исследование проблемы, вот уж точно "правильно заданный вопрос – половина ответа".