Пошаговые рассуждения: стандартный CoT, Zero-shot CoT, Auto-CoT, Least-to-Most
Заставить модель «думать вслух» — один из самых мощных инструментов промпт-инжиниринга для задач рассуждения.
Chain-of-Thought (CoT) промптинг был систематически описан в работе Wei et al. (2022) «Chain-of-Thought Prompting Elicits Reasoning in Large Language Models».
Ключевая идея: вместо того чтобы просить модель сразу дать ответ, попросить её показать промежуточные шаги рассуждения.
Сравните:
Без CoT:
Вопрос: У Роджера есть 5 теннисных мячей. Он купил ещё 2 банки, в каждой по 3 мяча. Сколько у него теперь мячей?
Ответ: 11
С CoT:
Вопрос: У Роджера есть 5 теннисных мячей. Он купил ещё 2 банки, в каждой по 3 мяча. Сколько у него теперь мячей?
Рассуждение: Роджер начал с 5 мячей. 2 банки по 3 мяча = 6 мячей. Итого: 5 + 6 = 11.
Ответ: 11
На простых задачах разницы нет. На сложных многошаговых задачах CoT резко улучшает точность.
Модель генерирует токены последовательно
LLM предсказывают следующий токен на основе всего предыдущего контекста. Когда модель пишет промежуточный шаг рассуждения, этот шаг становится частью контекста для следующего шага. То есть промежуточные вычисления буквально видны модели при генерации ответа.
Аналог System 2 thinking
В психологии System 1 — быстрое, интуитивное мышление. System 2 — медленное, аналитическое. CoT заставляет модель «работать в System 2 режиме», явно прорабатывая каждый шаг.
Emergence
CoT значительно эффективнее на больших моделях (>100B параметров). На малых моделях промежуточные шаги могут быть неправильными и вести к неверным ответам. Это «emergent ability» — способность возникающая только при определённом масштабе.
Классический подход: включить несколько примеров с цепочками рассуждений.
Вопрос: Кафе с утра купило 23 кг кофейных зёрен. К полудню продало 12 кг.
Потом пришла поставка ещё 15 кг. Сколько кг зёрен в кафе сейчас?
Рассуждение: Начали с 23 кг. Продали 12 кг: 23 - 12 = 11 кг.
Пришла поставка 15 кг: 11 + 15 = 26 кг.
Ответ: 26 кг
Вопрос: У библиотеки было 150 книг. Они списали 30 устаревших и купили
45 новых. Затем выдали 20 читателям. Сколько книг в библиотеке?
Рассуждение: Начало: 150. Списали: 150 - 30 = 120. Купили: 120 + 45 = 165.
Выдали читателям: 165 - 20 = 145.
Ответ: 145
Вопрос: [новая задача]
Рассуждение:
Kostis et al. (2022) обнаружили, что простое добавление фразы «Let's think step by step» (или «Давай рассуждать пошагово») активирует CoT без примеров.
Вопрос: Поезд едет из Москвы в Петербург. Расстояние 700 км.
Первые 200 км поезд едет со скоростью 100 км/ч.
Оставшиеся 500 км — со скоростью 125 км/ч. Сколько времени займёт поездка?
Давай рассуждать пошагово.
Фразы-активаторы Zero-shot CoT:
Zero-shot CoT проще применять, не требует примеров, но менее управляем чем few-shot CoT — вы меньше контролируете формат рассуждения.
Разработан для задач, которые трудно решить напрямую. Подход: сначала попросить модель разложить задачу на подзадачи, затем решить их последовательно.
Шаг 1 — декомпозиция:
Разбей задачу на подзадачи которые нужно решить последовательно:
Задача: Напиши функцию которая принимает список строк и возвращает
новый список где каждая строка — самое длинное слово из оригинала.
Шаг 2 — последовательное решение:
Подзадача 1: Как разбить строку на слова?
Подзадача 2: Как найти самое длинное слово в списке слов?
Подзадача 3: Как применить это к каждому элементу списка?
Подзадача 4: Собери финальное решение.
Least-to-Most особенно эффективен для: написания кода, решения составных задач, планирования.
Auto-CoT автоматически генерирует цепочки рассуждений вместо ручного написания примеров. Алгоритм Zhang et al. (2022):
Преимущество: не нужно вручную писать рассуждения для примеров. Недостаток: авто-сгенерированные рассуждения могут содержать ошибки (хотя обычно достаточно хороши).
Абстрагирование перед решением. Вместо прямого ответа на вопрос — сначала задать более общий вопрос, получить на него ответ, затем применить к конкретному случаю.
Конкретный вопрос: Какой будет температура на поверхности планеты
с атмосферой из 80% CO2 и 20% азота на расстоянии 1.2 AU от звезды типа G?
Step-back вопрос: Какие физические законы и принципы определяют
температуру планеты?
[Получаем ответ на общий вопрос]
Теперь применяю эти принципы к конкретному случаю...
Галлюцинации в цепочке
Промежуточные шаги могут быть неправильными, но звучать правдоподобно. Модель может «доказать» неправильный ответ через красивую, но ошибочную цепочку.
Зависимость от размера модели
CoT значительно эффективнее на больших моделях. На GPT-3.5 и слабее разница между CoT и без него меньше.
Стоимость токенов
Цепочка рассуждений занимает место — output токены дороже input. На больших объёмах это увеличивает стоимость.
Не для всех задач
CoT лучше всего работает для: математики, логических задач, multi-step рассуждений, планирования. Для простой классификации, извлечения фактов, перевода — CoT может не помочь или замедлить работу.
Вопросы ещё не добавлены
Вопросы для этой подтемы ещё не добавлены.