Подходит ли платформа для начинающих без опыта работы?

Да, курсы разбиты по уровням: Junior, Middle, Senior. Начинающие могут стартовать с базовых тем Python, Docker и алгоритмов и постепенно двигаться к более сложным темам.

Как быстро можно подготовиться к собеседованию на позицию Junior разработчика?

При занятиях 1–2 часа в день — от 2 до 4 недель на основные темы. Платформа анализирует слабые места по результатам квизов и строит персональный план подготовки.

Какие технологии охватывает платформа?

Python, FastAPI, Django, Docker, алгоритмы и структуры данных, Agile/Scrum, SQL, CI/CD, системный дизайн, код-ревью и более 50 других тем для разработчиков.

Платформа бесплатная?

Большинство учебных материалов и квизов доступны бесплатно после регистрации. Регистрация занимает менее минуты.

Как платформа помогает найти работу программистом?

Платформа даёт фундаментальные знания, которые проверяют на технических собеседованиях: алгоритмы, архитектура, фреймворки. Мок-интервью имитирует реальное собеседование. Система прогресса показывает, какие темы нужно подтянуть перед собеседованием.

btree_internals

B-дерево: глубокое погружение

Внутреннее устройство B-дерева, структура страниц, алгоритмы поиска и вставки.

B-дерево: глубокое погружение

B-дерево — индекс по умолчанию в PostgreSQL. Понимание его внутреннего устройства критично для проектирования эффективных индексов и диагностики проблем.

1. Что такое B-дерево

B-дерево (B-Tree, Balanced Tree) — это самосбалансирующееся дерево поиска, которое хранит данные в отсортированном виде. Это индекс по умолчанию в PostgreSQL, используемый в 90%+ случаев.

Ключевые свойства B-дерева

Сбалансированность — все листовые узлы находятся на одной глубине
Упорядоченность — ключи в узлах хранятся отсортированными
Логарифмическая сложность — поиск, вставка, удаление за O(log n)
Поддержка диапазонных запросов — благодаря сортировке

Операции, поддерживаемые B-деревом

Операция	Пример	Эффективность
Равенство	`WHERE id = 100`	✅ Отлично
Сравнение	`WHERE created_at > '2026-01-01'`	✅ Отлично
Диапазон	`WHERE id BETWEEN 100 AND 200`	✅ Отлично
Сортировка	`ORDER BY created_at DESC`	✅ Отлично
LIKE с префиксом	`WHERE email LIKE 'test@%'`	✅ Хорошо
IS NULL	`WHERE deleted_at IS NULL`	✅ Хорошо

2. Структура B-дерева

B-дерево состоит из трёх типов узлов:

                    ┌─────────────┐
                    │    ROOT     │  ← Корневой узел
                    │  (уровень 2) │
                    └──────┬──────┘
                           │
         ┌─────────────────┼─────────────────┐
         │                 │                 │
    ┌────▼────┐       ┌────▼────┐       ┌────▼────┐
    │INTERNAL │       │INTERNAL │       │INTERNAL │  ← Внутренние узлы
    │(уровень1)│       │(уровень1)│       │(уровень1)│
    └────┬────┘       └────┬────┘       └────┬────┘
         │                 │                 │
    ┌────┴────┐       ┌────┴────┐       ┌────┴────┐
    ▼         ▼       ▼         ▼       ▼         ▼
 ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐
 │ LEAF │ │ LEAF │ │ LEAF │ │ LEAF │ │ LEAF │ │ LEAF │  ← Листовые узлы
 │(ключ,│ │(ключ,│ │(ключ,│ │(ключ,│ │(ключ,│ │(ключ,│
 │ TID) │ │ TID) │ │ TID) │ │ TID) │ │ TID) │ │ TID) │
 └──────┘ └──────┘ └──────┘ └──────┘ └──────┘ └──────┘

2.1. Корневой узел (Root)

Всегда один на индекс
Содержит ключи и указатели на дочерние узлы
В PostgreSQL хранится на странице 0 индекса

2.2. Внутренние узлы (Internal nodes)

Содержат ключи и указатели на дочерние узлы
Ключи служат разделителями: все ключи слева < разделителя, все справа >= разделителя
Не содержат данных о строках таблицы

2.3. Листовые узлы (Leaf nodes)

Содержат ключи и указатели на строки таблицы (TID)
Связаны в двусвязный список для эффективного диапазонного сканирования
Именно отсюда PostgreSQL получает данные при Index Scan

3. Страницы B-дерева в PostgreSQL

3.1. Размер страницы

По умолчанию страница в PostgreSQL занимает 8 КБ (8192 байта).

-- Узнать размер страницы
SHOW block_size;  -- 8192

-- Узнать размер индекса в страницах
SELECT 
    pg_relation_size('idx_users_email') / 8192 AS pages
FROM pg_class;

3.2. Структура страницы индекса

┌─────────────────────────────────────────┐
│          PageHeaderData (24 байта)      │  ← Заголовок
├─────────────────────────────────────────┤
│         SpecialSpace (варьируется)      │  ← Служебные данные
├─────────────────────────────────────────┤
│           ItemId (4 байта каждый)       │  ← Указатели
├─────────────────────────────────────────┤
│           Свободное место               │
├─────────────────────────────────────────┤
│     Данные (ключи + указатели)          │  ← Растут снизу вверх
└─────────────────────────────────────────┘

3.3. Fillfactor

Fillfactor — процент заполнения страницы данными при создании/обновлении индекса.

-- Создать индекс с fillfactor 70%
CREATE INDEX idx_users_email ON users(email) WITH (fillfactor = 70);

Fillfactor	Когда использовать
90 (по умолчанию)	Статические данные, редкие обновления
70-80	Частые обновления, вставки
50-60	Очень частые обновления, горячие таблицы

Зачем оставлять место? При вставке нового ключа в заполненную страницу происходит split страницы (деление пополам), что дорого. Reserved space позволяет вставлять данные без split.

4. Алгоритм поиска в B-дереве

Рассмотрим поиск WHERE id = 157:

Шаг 1: Читаем ROOT
┌─────────────────────────┐
│ [50] │ [100] │ [200] │  ← Ключи-разделители
│  ↓   │   ↓   │   ↓   │
│ P1   │  P2   │  P3   │  ← Указатели
└─────────────────────────┘
                    │
                    ▼ (157 >= 100 и 157 < 200, идём в P2)
                    
Шаг 2: Читаем INTERNAL узел P2
┌─────────────────────────┐
│ [120]│ [140]│ [160]│   ← Ключи-разделители
│  ↓   │  ↓   │  ↓   │
│ L1   │ L2   │ L3   │   ← Указатели на листовые узлы
└─────────────────────────┘
                    │
                    ▼ (157 >= 140 и 157 < 160, идём в L2)
                    
Шаг 3: Читаем LEAF узел L2
┌─────────────────────────┐
│ (145, TID1)             │
│ (147, TID2)             │
│ (157, TID3)  ← НАЙДЕНО! │
│ (159, TID4)             │
└─────────────────────────┘
                    │
                    ▼
Шаг 4: По TID3 читаем строку из таблицы

Количество чтений: 3 страницы индекса + 1 страница таблицы = 4 чтения

Для дерева высотой 3-4 (типично для миллионов строк) это чрезвычайно эффективно.

5. Вставка в B-дерево

5.1. Обычная вставка

Найти листовой узел для ключа
Вставить ключ в правильную позицию (сохраняя сортировку)
Если есть место — готово

5.2. Split страницы (деление)

Если листовой узел заполнен:

До split (страница заполнена):
┌─────────────────────────────────┐
│ [10] [20] [30] [40] [50] [60]   │  ← Нет места
└─────────────────────────────────┘

Вставляем 35:

После split:
┌─────────────────────┐   ┌─────────────────────┐
│ [10] [20] [30]      │   │ [40] [50] [60]      │
│ ↑ свободное место   │   │ ↑ свободное место   │
└─────────────────────┘   └─────────────────────┘
              │
              ▼
        В родительский узел добавляется разделитель [40]

Split — дорогая операция:

Требует записи двух страниц вместо одной
Может каскадно распространяться вверх до корня
Блокирует часть дерева на время операции

5.3. Влияние fillfactor на split

-- Fillfactor 100: split при первой же вставке в заполненную страницу
-- Fillfactor 90: 10% места резерв, меньше split
-- Fillfactor 70: 30% места резер, ещё меньше split, но больше размер

6. Удаление из B-дерева

В PostgreSQL удаление работает иначе, чем в классическом B-дереве:

6.1. MVCC и «мёртвые» записи

При DELETE или UPDATE:

Старая версия строки помечается как удалённая (но не удаляется физически)
Запись в индексе остаётся до VACUUM
VACUUM физически удаляет мёртвые записи

-- После DELETE индекс не уменьшается сразу
DELETE FROM users WHERE id = 100;

-- Индекс всё ещё содержит запись для id=100 (помечена как удалённая)

-- VACUUM очищает мёртвые записи
VACUUM users;

6.2. Page recycling

PostgreSQL не уменьшает размер файла индекса после удаления. Освободившиеся страницы помечаются как свободные и переиспользуются для новых вставок.

7. Высота B-дерева

Высота дерева — количество уровней от корня до листьев.

Высота	Примерный размер данных
1	До ~100 записей
2	До ~10 000 записей
3	До ~1 000 000 записей
4	До ~100 000 000 записей

Проверка высоты дерева

-- PostgreSQL 13+
SELECT 
    indexrelname,
    pg_stat_get_numscans(indexrelid) as scans,
    pg_relation_size(indexrelid) as size
FROM pg_stat_user_indexes
WHERE relname = 'users';

-- Через pgstattuple (расширение)
CREATE EXTENSION IF NOT EXISTS pgstattuple;
SELECT * FROM pgstatindex('idx_users_email');
-- Поле level = высота дерева - 1

Почему это важно? Чем выше дерево, тем больше чтений диска для поиска. Но даже для миллиардов строк высота редко превышает 4-5.

8. Диапазонное сканирование

B-дерево особенно эффективно для диапазонных запросов:

SELECT * FROM users 
WHERE created_at BETWEEN '2026-01-01' AND '2026-01-31'
ORDER BY created_at;

Как это работает:

Поиск начальной точки (2026-01-01) через дерево — O(log n)
Последовательное чтение листовых узлов вправо через linked list
Остановка при достижении конечной точки (2026-01-31)

Листовые узлы связаны в список:
┌──────┐    ┌──────┐    ┌──────┐    ┌──────┐
│ LEAF │───▶│ LEAF │───▶│ LEAF │───▶│ LEAF │
│      │◀───│      │◀───│      │◀───│      │
└──────┘    └──────┘    └──────┘    └──────┘
  ↓           ↓           ↓           ↓
2025-12    2026-01     2026-02     2026-03

Преимущество: Не нужно возвращаться к внутренним узлам для каждой строки.

9. Влияние сортировки данных на производительность

9.1. Упорядоченные данные

Если данные вставляются в порядке ключа (например, created_at):

Вставки всегда в конец последнего листа
Минимум split
Высокая локальность данных
Отличная производительность

9.2. Случайные данные

Если ключи случайные (например, UUID):

Вставки в случайные позиции дерева
Частые split страниц
Низкая локальность
Больше чтений диска

-- Хуже: случайные UUID как первичный ключ
CREATE TABLE events (
    id UUID PRIMARY KEY DEFAULT gen_random_uuid(),
    data TEXT
);

-- Лучше: последовательный ID + индекс по UUID
CREATE TABLE events (
    id BIGSERIAL PRIMARY KEY,
    uuid UUID UNIQUE DEFAULT gen_random_uuid(),
    data TEXT
);
CREATE INDEX idx_events_uuid ON events(uuid);

10. Диагностика B-дерева

10.1. Размер индекса

SELECT 
    indexname,
    pg_size_pretty(pg_relation_size(indexname::regclass)) as size
FROM pg_indexes
WHERE tablename = 'users';

10.2. Статистика использования

SELECT 
    indexrelname,
    idx_scan as scans,
    idx_tup_read as tuples_read,
    idx_tup_fetch as tuples_fetched
FROM pg_stat_user_indexes
WHERE relname = 'users';

10.3. Раздувание индекса (bloat)

-- Простая оценка через pg_stat_user_indexes
SELECT 
    indexrelname,
    pg_size_pretty(pg_relation_size(indexrelid)) as size,
    idx_scan as scans
FROM pg_stat_user_indexes
WHERE relname = 'users'
ORDER BY pg_relation_size(indexrelid) DESC;

-- Точная оценка через pgstattuple
CREATE EXTENSION IF NOT EXISTS pgstattuple;
SELECT * FROM pgstatindex('idx_users_email');
-- Поле leaf_fragmentation показывает фрагментацию

10.4. Перестроение индекса

-- Обычное (блокирует таблицу)
REINDEX INDEX idx_users_email;

-- Конкурентное (без блокировок, PostgreSQL 12+)
REINDEX INDEX CONCURRENTLY idx_users_email;

11. Best practices для B-дерева

✅ Делайте

Используйте B-дерево по умолчанию для большинства случаев
Создавайте индексы для колонок с высокой селективностью
Используйте составные индексы для частых комбинаций условий
Настраивайте fillfactor для часто обновляемых таблиц
Регулярно выполняйте VACUUM и ANALYZE

❌ Не делайте

Не создавайте индексы на колонках с низкой селективностью (boolean, gender)
Не игнорируйте порядок колонок в составных индексах
Не забывайте про bloat после массовых обновлений
Не используйте B-дерево для полнотекстового поиска (используйте GIN)

12. Что дальше?

Hash-индексы — когда точное совпадение важнее универсальности
Составные индексы — порядок колонок и правило левой границы
Покрывающие индексы — INCLUDE для Index Only Scan

Ключевые выводы

B-дерево универсально — поддерживает =, <, >, BETWEEN, ORDER BY
Высота дерева логарифмическая — 3-4 уровня для миллионов строк
Листовые узлы связаны — эффективно для диапазонных запросов
Fillfactor влияет на split — настраивайте для часто обновляемых таблиц
VACUUM критичен — без него индекс раздувается от мёртвых записей

Проверьте свои знания

Вопросы ещё не добавлены

Вопросы для этой подтемы ещё не добавлены.

Далее: Hash-индексы

Операция

Пример

Эффективность

Равенство

WHERE id = 100

✅ Отлично

Сравнение

WHERE created_at > '2026-01-01'

✅ Отлично

Диапазон

WHERE id BETWEEN 100 AND 200

✅ Отлично

Сортировка

ORDER BY created_at DESC

✅ Отлично

LIKE с префиксом

WHERE email LIKE 'test@%'

✅ Хорошо

IS NULL

WHERE deleted_at IS NULL

✅ Хорошо

┌─────────────┐ │ ROOT │ ← Корневой узел │ (уровень 2) │ └──────┬──────┘ │ ┌─────────────────┼─────────────────┐ │ │ │ ┌────▼────┐ ┌────▼────┐ ┌────▼────┐ │INTERNAL │ │INTERNAL │ │INTERNAL │ ← Внутренние узлы │(уровень1)│ │(уровень1)│ │(уровень1)│ └────┬────┘ └────┬────┘ └────┬────┘ │ │ │ ┌────┴────┐ ┌────┴────┐ ┌────┴────┐ ▼ ▼ ▼ ▼ ▼ ▼ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │ LEAF │ │ LEAF │ │ LEAF │ │ LEAF │ │ LEAF │ │ LEAF │ ← Листовые узлы │(ключ,│ │(ключ,│ │(ключ,│ │(ключ,│ │(ключ,│ │(ключ,│ │ TID) │ │ TID) │ │ TID) │ │ TID) │ │ TID) │ │ TID) │ └──────┘ └──────┘ └──────┘ └──────┘ └──────┘ └──────┘

┌─────────────────────────────────────────┐ │ PageHeaderData (24 байта) │ ← Заголовок ├─────────────────────────────────────────┤ │ SpecialSpace (варьируется) │ ← Служебные данные ├─────────────────────────────────────────┤ │ ItemId (4 байта каждый) │ ← Указатели ├─────────────────────────────────────────┤ │ Свободное место │ ├─────────────────────────────────────────┤ │ Данные (ключи + указатели) │ ← Растут снизу вверх └─────────────────────────────────────────┘

Fillfactor

Когда использовать

90 (по умолчанию)

Статические данные, редкие обновления

70-80

Частые обновления, вставки

50-60

Очень частые обновления, горячие таблицы

Шаг 1: Читаем ROOT ┌─────────────────────────┐ │ [50] │ [100] │ [200] │ ← Ключи-разделители │ ↓ │ ↓ │ ↓ │ │ P1 │ P2 │ P3 │ ← Указатели └─────────────────────────┘ │ ▼ (157 >= 100 и 157 < 200, идём в P2) Шаг 2: Читаем INTERNAL узел P2 ┌─────────────────────────┐ │ [120]│ [140]│ [160]│ ← Ключи-разделители │ ↓ │ ↓ │ ↓ │ │ L1 │ L2 │ L3 │ ← Указатели на листовые узлы └─────────────────────────┘ │ ▼ (157 >= 140 и 157 < 160, идём в L2) Шаг 3: Читаем LEAF узел L2 ┌─────────────────────────┐ │ (145, TID1) │ │ (147, TID2) │ │ (157, TID3) ← НАЙДЕНО! │ │ (159, TID4) │ └─────────────────────────┘ │ ▼ Шаг 4: По TID3 читаем строку из таблицы

До split (страница заполнена): ┌─────────────────────────────────┐ │ [10] [20] [30] [40] [50] [60] │ ← Нет места └─────────────────────────────────┘ Вставляем 35: После split: ┌─────────────────────┐ ┌─────────────────────┐ │ [10] [20] [30] │ │ [40] [50] [60] │ │ ↑ свободное место │ │ ↑ свободное место │ └─────────────────────┘ └─────────────────────┘ │ ▼ В родительский узел добавляется разделитель [40]

Высота

Примерный размер данных

До ~100 записей

До ~10 000 записей

До ~1 000 000 записей

До ~100 000 000 записей

Листовые узлы связаны в список: ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │ LEAF │───▶│ LEAF │───▶│ LEAF │───▶│ LEAF │ │ │◀───│ │◀───│ │◀───│ │ └──────┘ └──────┘ └──────┘ └──────┘ ↓ ↓ ↓ ↓ 2025-12 2026-01 2026-02 2026-03