Подходит ли платформа для начинающих без опыта работы?

Да, курсы разбиты по уровням: Junior, Middle, Senior. Начинающие могут стартовать с базовых тем Python, Docker и алгоритмов и постепенно двигаться к более сложным темам.

Как быстро можно подготовиться к собеседованию на позицию Junior разработчика?

При занятиях 1–2 часа в день — от 2 до 4 недель на основные темы. Платформа анализирует слабые места по результатам квизов и строит персональный план подготовки.

Какие технологии охватывает платформа?

Python, FastAPI, Django, Docker, алгоритмы и структуры данных, Agile/Scrum, SQL, CI/CD, системный дизайн, код-ревью и более 50 других тем для разработчиков.

Платформа бесплатная?

Большинство учебных материалов и квизов доступны бесплатно после регистрации. Регистрация занимает менее минуты.

Как платформа помогает найти работу программистом?

Платформа даёт фундаментальные знания, которые проверяют на технических собеседованиях: алгоритмы, архитектура, фреймворки. Мок-интервью имитирует реальное собеседование. Система прогресса показывает, какие темы нужно подтянуть перед собеседованием.

query_optimizer

Как оптимизатор выбирает индексы

Планировщик запросов, статистика, стоимость операций и факторы выбора.

Как оптимизатор выбирает индексы

Оптимизатор PostgreSQL — это «мозг» базы данных. Он решает, какой индекс использовать, как соединять таблицы и в каком порядке выполнять операции.

1. Архитектура оптимизатора

1.1. Жизненный цикл запроса

SQL запрос
    ↓
┌─────────────────┐
│    Parser       │  ← Проверка синтаксиса
└────────┬────────┘
         ↓
┌─────────────────┐
│    Rewriter     │  ← Применение правил (views, rules)
└────────┬────────┘
         ↓
┌─────────────────┐
│    Optimizer    │  ← Выбор плана выполнения
│   (Planner)     │
└────────┬────────┘
         ↓
┌─────────────────┐
│  Executor       │  ← Выполнение плана
└─────────────────┘

1.2. Задачи оптимизатора

Анализ возможных планов — перебор вариантов использования индексов
Оценка стоимости — вычисление cost для каждого плана
Выбор оптимального — план с минимальной стоимостью

2. Стоимость операций (Cost)

2.1. Типы стоимости

Параметр	Описание	Значение по умолчанию
`seq_page_cost`	Стоимость последовательного чтения страницы	1.0
`random_page_cost`	Стоимость случайного чтения страницы	4.0
`cpu_tuple_cost`	Стоимость обработки строки	0.01
`cpu_index_tuple_cost`	Стоимость обработки строки из индекса	0.005
`cpu_operator_cost`	Стоимость оператора (WHERE, JOIN)	0.0025

2.2. Формула стоимости

Total Cost = 
  (страницы × random_page_cost) +
  (строки × cpu_index_tuple_cost) +
  (операторы × cpu_operator_cost)

2.3. Пример расчёта

EXPLAIN SELECT * FROM users WHERE email = 'test@example.com';

Index Scan:

Index Scan using idx_users_email on users
  cost=0.43..8.45 rows=1 width=32

0.43 — startup cost (до первой строки)
8.45 — total cost (полная стоимость)
rows=1 — оценочное количество строк
width=32 — средняя ширина строки в байтах

3. Статистика и селективность

3.1. Откуда оптимизатор знает данные?

-- Просмотр статистики
SELECT 
    attname as column_name,
    null_frac,
    avg_width,
    n_distinct,
    correlation
FROM pg_stats
WHERE tablename = 'users';

Столбец	Описание
`null_frac`	Доля NULL значений (0-1)
`avg_width`	Средняя ширина значения в байтах
`n_distinct`	Количество уникальных значений (>0) или доля (-1..0)
`correlation`	Корреляция между физической и логической сортировкой

3.2. Селективность

Селективность — доля строк, удовлетворяющих условию.

-- Таблица с 1 млн записей
-- WHERE id = 100  → селективность 0.000001 (одна строка)
-- WHERE status = 'active'  → селективность 0.5 (50% строк)

3.3. Как вычисляется селективность

-- Для = (равенство)
селективность = 1 / n_distinct

-- Для > < (диапазон)
селективность = (значение - min) / (max - min)

-- Для LIKE с префиксом
селективность = статистика по первым символам

3.4. Пример

EXPLAIN SELECT * FROM users WHERE status = 'active';

Seq Scan on users
  Filter: (status = 'active'::text)
  
-- Оптимизатор знает из статистики:
-- n_distinct = 4 (active, pending, cancelled, completed)
-- селективность = 1/4 = 0.25
-- ожидается 250K строк из 1 млн

4. Типы сканирования и когда выбираются

4.1. Sequential Scan (Seq Scan)

Seq Scan on users
  Filter: (status = 'active')
  Rows Removed by Filter: 750000

Когда выбирается:

Таблица маленькая (< 1000 страниц)
Селективность низкая (> 10-30% строк)
Нет подходящего индекса
Стоимость Seq Scan < Index Scan

4.2. Index Scan

Index Scan using idx_users_email on users
  Index Cond: (email = 'test@example.com')

Когда выбирается:

Высокая селективность (< 5% строк)
Есть подходящий индекс
Случайные чтения дешевле последовательных (SSD)

4.3. Bitmap Scan

Bitmap Heap Scan on users
  Recheck Cond: (status = 'active')
  ->  Bitmap Index Scan on idx_users_status
        Index Cond: (status = 'active')

Когда выбирается:

Средняя селективность (5-30% строк)
Несколько индексов могут быть объединены
Index Scan слишком дорог (много случайных чтений)

4.4. Index Only Scan

Index Only Scan using idx_users_covering on users
  Index Cond: (email = 'test@example.com')

Когда выбирается:

Все данные есть в индексе (covering index)
Visibility map подтверждает видимость
Самый быстрый тип сканирования

5. Факторы выбора индекса

5.1. Селективность запроса

-- Высокая селективность → Index Scan
SELECT * FROM users WHERE id = 100;  -- 1 строка из 1 млн

-- Низкая селективность → Seq Scan
SELECT * FROM users WHERE gender = 'M';  -- 50% строк

5.2. Размер таблицы

-- Маленькая таблица → Seq Scan (дешевле)
SELECT * FROM small_table WHERE id = 100;

-- Большая таблица → Index Scan (дешевле)
SELECT * FROM large_table WHERE id = 100;

5.3. Тип индекса

-- B-дерево: =, <, >, BETWEEN, ORDER BY
SELECT * FROM users WHERE email = 'test@example.com';

-- Hash: только =
SELECT * FROM users WHERE email = 'test@example.com';

-- GIN: @>, &&, ?
SELECT * FROM articles WHERE tags @> ARRAY['postgresql'];

-- BRIN: диапазоны для упорядоченных данных
SELECT * FROM logs WHERE created_at > NOW() - INTERVAL '1 hour';

5.4. ORDER BY и LIMIT

-- Индекс может устранить сортировку
SELECT * FROM users ORDER BY created_at DESC LIMIT 10;
-- Index Scan с ORDER BY создан_at DESC

-- Без индекса — сортировка + Top-N heapsort
SELECT * FROM users ORDER BY created_at DESC LIMIT 10;
-- Sort + Limit

6. Объединение индексов

6.1. Bitmap And

SELECT * FROM users 
WHERE status = 'active' AND created_at > '2026-01-01';

Bitmap Heap Scan on users
  Recheck Cond: (status = 'active') AND (created_at > ...)
  ->  BitmapAnd
        ->  Bitmap Index Scan on idx_users_status
              Index Cond: (status = 'active')
        ->  Bitmap Index Scan on idx_users_created_at
              Index Cond: (created_at > '2026-01-01')

6.2. Bitmap Or

SELECT * FROM users 
WHERE status = 'active' OR status = 'pending';

Bitmap Heap Scan on users
  ->  BitmapOr
        ->  Bitmap Index Scan on idx_users_status
              Index Cond: (status = 'active')
        ->  Bitmap Index Scan on idx_users_status
              Index Cond: (status = 'pending')

7. Настройка оптимизатора

7.1. Влияние на выбор плана

-- Запретить Seq Scan
SET enable_seqscan = off;
SELECT * FROM users WHERE status = 'active';
-- Принудительный Index Scan

-- Запретить Index Scan
SET enable_indexscan = off;
SELECT * FROM users WHERE id = 100;
-- Bitmap Scan или Seq Scan

-- Запретить Bitmap Scan
SET enable_bitmapscan = off;

Важно: Используйте только для тестирования! Не в production.

7.2. Настройка стоимости

-- Для SSD: случайное чтение почти так же быстро, как последовательное
SET random_page_cost = 1.1;

-- Для HDD: случайное чтение медленное
SET random_page_cost = 4.0;

-- Для CPU-интенсивных запросов
SET cpu_tuple_cost = 0.02;

7.3. Автовакуум и статистика

-- Проверка последнего ANALYZE
SELECT 
    relname,
    last_analyze,
    last_autoanalyze
FROM pg_stat_user_tables
WHERE relname = 'users';

-- Ручное обновление статистики
ANALYZE users;

-- Настройка автовакуума
ALTER TABLE users SET (
    autovacuum_analyze_threshold = 50,
    autovacuum_analyze_scale_factor = 0.1
);

8. Диагностика планов

8.1. EXPLAIN

-- Базовый вывод
EXPLAIN SELECT * FROM users WHERE email = 'test@example.com';

-- С метриками
EXPLAIN (ANALYZE) SELECT * FROM users WHERE email = 'test@example.com';

-- С буферами
EXPLAIN (ANALYZE, BUFFERS) SELECT * FROM users WHERE email = 'test@example.com';

-- В формате JSON
EXPLAIN (FORMAT JSON, ANALYZE) SELECT * FROM users WHERE email = 'test@example.com';

8.2. Чтение вывода

Bitmap Heap Scan on users  (cost=100.00..500.00 rows=1000 width=32)
  Actual Time=0.5..1.2 ms rows=1000 loops=1
  Recheck Cond: (status = 'active'::text)
  Heap Blocks: exact=50
  Buffers: shared hit=50
  ->  Bitmap Index Scan on idx_users_status  (cost=0.00..100.00 rows=1000 width=0)
        Actual Time=0.3..0.3 ms rows=1000 loops=1
        Index Cond: (status = 'active'::text)
        Buffers: shared hit=20

Ключевые метрики:

cost — оценочная стоимость
Actual Time — реальное время (с ANALYZE)
rows — оценочное / фактическое количество строк
Buffers — чтения из буфера

8.3. Поиск проблем

-- Seq Scan на большой таблице
EXPLAIN SELECT * FROM large_table WHERE indexed_column = 'value';
-- Если Seq Scan вместо Index Scan — проблема!

-- Sort вместо Index Scan
EXPLAIN SELECT * FROM users ORDER BY created_at LIMIT 10;
-- Если Sort — нет индекса для сортировки

-- Высокий Heap Fetch
EXPLAIN (ANALYZE, BUFFERS) SELECT ...;
-- Heap Fetch > 0 — проблема с visibility map

9. Типичные проблемы

9.1. Устаревшая статистика

-- Проблема: оптимизатор выбирает неверный план
EXPLAIN SELECT * FROM users WHERE status = 'active';
-- Ожидается 1000 строк, фактически 500K

-- Решение: обновить статистику
ANALYZE users;

9.2. Неправильная оценка селективности

-- Проблема: LIKE с переменной
EXPLAIN SELECT * FROM users WHERE email LIKE '%@gmail.com';
-- Оптимизатор не знает селективность '%@gmail.com'

-- Решение: статистика расширений
CREATE EXTENSION pg_trgm;
CREATE INDEX idx_users_email_trgm ON users USING GIN (email gin_trgm_ops);

9.3. Параметрические запросы

-- Проблема: план кэшируется для первых параметров
PREPARE stmt(text) AS SELECT * FROM users WHERE email = $1;
EXECUTE stmt('rare@example.com');  -- План для редкого значения
EXECUTE stmt('common@gmail.com');  -- Тот же план, но неоптимальный

-- Решение: ANALYZE или перепланирование
EXECUTE stmt('common@gmail.com');  -- После ANALYZE план обновится

9.4. Коррелированные подзапросы

-- Проблема: подзапрос выполняется для каждой строки
SELECT u.*, (SELECT COUNT(*) FROM orders o WHERE o.user_id = u.id) as order_count
FROM users u;

-- Решение: JOIN с GROUP BY
SELECT u.*, COUNT(o.id) as order_count
FROM users u
LEFT JOIN orders o ON o.user_id = u.id
GROUP BY u.id;

10. Расширенные возможности

10.1. Частичная статистика

-- Статистика для выражений
CREATE STATISTICS stats_users_email_lower ON (dependencies) 
FROM users (LOWER(email));
ANALYZE users;

10.2. Расширенная статистика

-- Статистика зависимостей между колонками
CREATE STATISTICS stats_orders_user_status (dependencies)
ON user_id, status FROM orders;
ANALYZE orders;

-- Проверка
SELECT * FROM pg_stats_ext WHERE tablename = 'orders';

10.3. Подсказки (hints)

PostgreSQL не поддерживает hints напрямую, но можно влиять через:

-- Конфигурация
SET random_page_cost = 1.1;

-- Временные индексы
CREATE TEMP INDEX idx_temp ON table(column);

-- CTE для материализации
WITH filtered AS (
    SELECT * FROM large_table WHERE complex_condition
)
SELECT * FROM filtered WHERE simple_condition;

11. Best practices

✅ Делайте

Регулярно выполняйте ANALYZE (или настройте autovacuum)
Проверяйте планы через EXPLAIN (ANALYZE, BUFFERS)
Создавайте индексы для частых запросов
Используйте составные индексы для комбинаций условий
Мониторьте pg_stat_statements для медленных запросов

❌ Не делайте

Не используйте enable_seqscan = off в production
Не создавайте индексы без анализа запросов
Не игнорируйте устаревшую статистику
Не ожидайте, что оптимизатор всегда выберет лучший план
Не забывайте про корреляцию данных

12. Что дальше?

Мониторинг и отладка — диагностика проблем
BRIN — для очень больших таблиц
Индексы без блокировок — CONCURRENTLY для production

Ключевые выводы

Оптимизатор выбирает план с минимальной стоимостью — на основе статистики
Статистика критична — устаревшая статистика = неверный план
Селективность решает — высокая → Index Scan, низкая → Seq Scan
EXPLAIN (ANALYZE, BUFFERS) — ваш друг — всегда проверяйте планы
Настройка random_page_cost для SSD — ускорит использование индексов

Проверьте свои знания

Вопросы ещё не добавлены

Вопросы для этой подтемы ещё не добавлены.

Далее: Мониторинг, отладка, антипаттерны

SQL запрос ↓ ┌─────────────────┐ │ Parser │ ← Проверка синтаксиса └────────┬────────┘ ↓ ┌─────────────────┐ │ Rewriter │ ← Применение правил (views, rules) └────────┬────────┘ ↓ ┌─────────────────┐ │ Optimizer │ ← Выбор плана выполнения │ (Planner) │ └────────┬────────┘ ↓ ┌─────────────────┐ │ Executor │ ← Выполнение плана └─────────────────┘

Параметр

Описание

Значение по умолчанию

seq_page_cost

Стоимость последовательного чтения страницы

1.0

random_page_cost

Стоимость случайного чтения страницы

4.0

cpu_tuple_cost

Стоимость обработки строки

0.01

cpu_index_tuple_cost

Стоимость обработки строки из индекса

0.005

cpu_operator_cost

Стоимость оператора (WHERE, JOIN)

0.0025

Столбец

Описание

null_frac

Доля NULL значений (0-1)

avg_width

Средняя ширина значения в байтах

n_distinct

Количество уникальных значений (>0) или доля (-1..0)

correlation

Корреляция между физической и логической сортировкой

Seq Scan on users Filter: (status = 'active'::text) -- Оптимизатор знает из статистики: -- n_distinct = 4 (active, pending, cancelled, completed) -- селективность = 1/4 = 0.25 -- ожидается 250K строк из 1 млн

Bitmap Heap Scan on users Recheck Cond: (status = 'active') AND (created_at > ...) -> BitmapAnd -> Bitmap Index Scan on idx_users_status Index Cond: (status = 'active') -> Bitmap Index Scan on idx_users_created_at Index Cond: (created_at > '2026-01-01')

Bitmap Heap Scan on users -> BitmapOr -> Bitmap Index Scan on idx_users_status Index Cond: (status = 'active') -> Bitmap Index Scan on idx_users_status Index Cond: (status = 'pending')

Bitmap Heap Scan on users (cost=100.00..500.00 rows=1000 width=32) Actual Time=0.5..1.2 ms rows=1000 loops=1 Recheck Cond: (status = 'active'::text) Heap Blocks: exact=50 Buffers: shared hit=50 -> Bitmap Index Scan on idx_users_status (cost=0.00..100.00 rows=1000 width=0) Actual Time=0.3..0.3 ms rows=1000 loops=1 Index Cond: (status = 'active'::text) Buffers: shared hit=20