Перед тем как вы погрузитесь в изучение статьи, обратите внимание на тот факт что всё упомянутое в ней не является финансовой рекомендацией для принятие более взвешенного решения просьба провести свое собственное исследование.

"Бычий" сценарий​

Прежде чем мы перейдем к событиям, которые заставляют меня задуматься, давайте сделаем паузу, чтобы вкратце рассмотреть «бычий» сценарий для акций NVDA, который, по сути, теперь известен каждому. Глубокое обучение и искусственный интеллект - это самые преобразующие технологии со времен интернета, которые способны изменить практически все в нашем обществе. Nvidia каким-то образом оказалась близка к монополии по доле совокупных капитальных затрат отрасли, которые тратятся на инфраструктуру обучения и вывода.

Некоторые из крупнейших и наиболее прибыльных компаний в мире, такие как Microsoft, Apple, Amazon, Meta, Google, Oracle и т. д., решили, что они должны делать и тратить все необходимое, чтобы оставаться конкурентоспособными в этом пространстве, потому что они просто не могут позволить себе остаться позади. Объем капитальных вложений, гигаватт электроэнергии, площадь новых дата-центров и, конечно, количество графических процессоров - все это взорвалось и, похоже, не собирается замедляться. При этом Nvidia удается получать безумно высокие 90%+ валовые прибыли на самых высокотехнологичных продуктах, ориентированных на дата-центры.

Мы только нащупали поверхность «бычьего» сценария. Сейчас существует множество дополнительных аспектов, которые заставляют даже тех, кто уже был настроен очень оптимистично, становиться еще более оптимистичными. Помимо таких вещей, как появление человекоподобных роботов, которые, как я подозреваю, застанут большинство людей врасплох, когда они быстро смогут выполнять огромное количество задач, которые в настоящее время требуют неквалифицированного (или даже квалифицированного) человеческого труда (например, стирка, уборка, организация и приготовление пищи; выполнение строительных работ, таких как ремонт ванной комнаты или строительство дома в команде рабочих; управление складом и вождение погрузчиков и т. д.), есть и другие факторы, которые большинство людей даже не рассматривали.

Один из основных факторов, о котором говорят умные люди, - это появление «нового закона масштабирования», который создал новую парадигму мышления о том, как со временем будут расти потребности в вычислениях. Первоначальный закон масштабирования, который двигал прогресс в ИИ с момента появления AlexNet в 2012 году и изобретения архитектуры Transformer в 2017 году, - это закон масштабирования предварительного обучения: чем больше миллиардов (а теперь уже и триллионов) токенов мы можем использовать в качестве обучающих данных, чем больше параметров у обучаемых моделей и чем больше FLOPS вычислений мы тратим на обучение этих моделей на этих токенах, тем выше производительность полученных моделей на большом количестве очень полезных задач в дальнейшем.

И не только это, но и то, что это улучшение в некоторой степени предсказуемо, настолько, что ведущие лаборатории ИИ, такие как OpenAI и Anthropic, имеют довольно хорошее представление о том, насколько хороши будут их последние модели еще до того, как они начнут реальное обучение - в некоторых случаях предсказывая эталоны конечных моделей с точностью до пары процентных пунктов. Этот «оригинальный закон масштабирования» был жизненно важен, но всегда вызывал некоторые сомнения у людей, прогнозирующих будущее с его помощью.

Во-первых, похоже, что мы уже исчерпали весь накопленный в мире набор высококачественных обучающих данных. Конечно, это не совсем так - существует еще очень много старых книг и периодических изданий, которые еще не были должным образом оцифрованы, а если и были, то не имеют соответствующей лицензии для использования в качестве учебных данных. Проблема в том, что, даже если отдать должное всему этому материалу - скажем, общей сумме «профессионально» созданного англоязычного письменного контента с 1500 по, скажем, 2000 год, - в процентном выражении это не такая уж огромная сумма, когда речь идет об обучающем корпусе из почти 15 триллионов лексем, то есть о масштабах современных пограничных моделей.

Для быстрой проверки реальности этих цифр: Google Books оцифровал около 40 миллионов книг; если типичная книга содержит от 50 до 100 тысяч слов, или от 65 до 130 тысяч токенов, то это от 2,6 до 5,2 Т токенов только из книг, хотя, конечно, большая часть этих данных уже включена в тренировочный набор данных, используемые большими лабораториями, независимо от того, является ли это строго законным или нет. Кроме того, существует множество научных работ: только на сайте arXiv более 2 миллионов работ. А в Библиотеке Конгресса США хранится более 3 миллиардов оцифрованных газетных страниц. В совокупности это может составлять до 7 Т лексем, но поскольку большая их часть уже включена в тренировочный набор данных, оставшиеся «дополнительные» обучающие данные, вероятно, не так уж и значительны в общей схеме вещей.

Конечно, есть и другие способы собрать больше обучающих данных. Например, можно автоматически расшифровывать каждое видео на YouTube и использовать этот текст. И хотя это может быть полезно в некоторых случаях, это, конечно, гораздо менее качественно, чем, скажем, уважаемый учебник по органической химии в качестве источника полезных знаний о мире. Поэтому мы всегда сталкивались со «стеной данных», когда речь заходила о первоначальном законе масштабирования; хотя мы знаем, что можем продолжать вкладывать все больше и больше средств в GPU и строить все больше и больше центров обработки данных, гораздо сложнее массово производить новые полезные человеческие знания, которые были бы правильными и дополняли бы уже существующие. Одним из интригующих ответов на это стало появление «синтетических данных», то есть текста, который сам по себе является результатом работы LLM. И хотя это кажется почти бессмыслицей, в качестве способа улучшения качества модели, на практике это, похоже, работает очень хорошо, по крайней мере, в области математики, логики и компьютерного программирования.

Причина, конечно, в том, что это области, где мы можем механически проверить и доказать правильность вещей. Так что мы можем сделать выборку из огромной вселенной возможных математических теорем или возможных скриптов Python, а затем проверить, являются ли они правильными, и включить их только в том случае, если они правильные. Таким образом, мы можем очень сильно расширить коллекцию высококачественных обучающих данных, по крайней мере, в таких областях.

Кроме текста, есть и другие виды данных, на которых мы могли бы обучать ИИ. Например, что если мы возьмем секвенирование всего генома (около 200-300 ГБ без сжатия для одного человека) для 100 миллионов человек? Очевидно, что это очень много данных, хотя подавляющее большинство из них будут практически идентичны у двух разных людей. Конечно, по разным причинам сравнение с текстовыми данными из книг и интернета может ввести в заблуждение:
  • Сырой размер генома не поддается прямому сравнению с количеством лексем.
  • Информационное содержание геномных данных сильно отличается от текста
  • Ценность обучения с использованием сильно избыточных данных неясна
  • Вычислительные требования для обработки геномных данных отличаются.
Но это еще один большой источник разнообразной информации, на котором в будущем мы сможем обучать огромные модели, поэтому я и включил его в список.

Итак, хотя есть некоторая надежда на то, что мы сможем собирать все больше и больше дополнительных обучающих данных, если посмотреть на скорость роста тренировочного набора данных в последние годы, становится очевидно, что мы близки к тому, чтобы удариться о стену с точки зрения доступности данных для «общеполезных» знаний, которые могут приблизить нас к конечной цели - получить искусственный супер-интеллект, который в 10 раз умнее Джона фон Неймана и является абсолютным экспертом мирового класса по всем известным человеку специальностям.

Помимо ограниченного количества доступных данных, у сторонников закона масштабирования перед обучением всегда была еще пара моментов, которые таились на задворках сознания. Главный из них - после завершения обучения модели что делать со всей этой вычислительной инфраструктурой? Обучать следующую модель? Конечно, вы можете это сделать, но, учитывая быстрое улучшение скорости и производительности GPU, а также важность электроэнергии и других расходов в экономических расчетах, имеет ли смысл использовать кластер двухлетней давности для обучения новой модели? Конечно, лучше использовать новый центр обработки данных, который вы только что построили и который стоит в 10 раз дороже старого и в 20 раз мощнее благодаря более совершенным технологиям. Проблема в том, что в какой-то момент вам нужно будет амортизировать первоначальные затраты на эти инвестиции и окупить их за счет потока (надеюсь, положительного) операционной прибыли, верно?

Рынок настолько увлечен ИИ, что, к счастью, игнорирует это, позволяя таким компаниям, как OpenAI, демонстрировать умопомрачительные операционные убытки, получая при этом все более впечатляющие оценки в последующих инвестиционных раундах (хотя, к их чести, они также смогли продемонстрировать очень быстро растущие доходы). Но в конечном итоге, чтобы такая ситуация была устойчивой в течение полного рыночного цикла, эти затраты на центры обработки данных должны в конце концов окупиться, надеюсь, с прибылью, которая со временем станет конкурентоспособной по сравнению с другими инвестиционными возможностями с учетом риска.

Новая парадигма​

Итак, это был закон масштабирования до обучения. Что же это за «новый» закон масштабирования? Ну, это то, на чем люди начали фокусироваться только в прошлом году: масштабирование вычислений во времени вывода. Раньше большая часть всех вычислений, которые вы затрачивали в процессе, приходилась на предварительные обучающие вычисления для создания модели. После того, как у вас была обученная модель, выполнение выводов на основе этой модели - т.е. задать вопрос или попросить LLM выполнить для вас какую-то задачу - использовало определенный, ограниченный объем вычислений.

Очень важно, что общий объем вычислений (измеряемый различными способами, такими как FLOPS, объем памяти GPU и т.д.) был намного, намного меньше, чем требовалось на этапе предварительного обучения. Разумеется, объем вычислений при выводе данных растет, когда вы увеличиваете размер контекстного окна моделей и объем выходных данных, которые вы генерируете за один раз (хотя исследователи добились захватывающих дух алгоритмических улучшений в этом направлении по сравнению с первоначальным квадратичным масштабированием, которое люди изначально ожидали получить при масштабировании). Но, по сути, до недавнего времени вычисления для выводов были гораздо менее интенсивными, чем вычисления для обучения, и масштабировались практически линейно в зависимости от количества обрабатываемых запросов - чем больше спрос на завершение текста в ChatGPT, например, тем больше вычислений для выводов вы использовали.

С появлением революционных моделей Chain-of-Thought («COT»), представленных в прошлом году, наиболее заметных во флагманской модели O1 от OpenAI (но совсем недавно в новой модели R1 от DeepSeek, о которой мы поговорим позже гораздо подробнее), все изменилось. Вместо того чтобы объем вычислений прямо пропорционально зависел от длины выходного текста, генерируемого моделью (масштабируясь при увеличении контекстных окон, размера модели и т. д.), эти новые COT-модели также генерируют промежуточные «логические лексемы»; считайте, что это своего рода блокнот или «внутренний монолог» модели, пока она пытается решить вашу проблему или выполнить поставленную перед ней задачу.

Это настоящее изменение в работе вычислений: теперь, чем больше токенов вы используете для этой внутренней цепочки мыслительного процесса, тем выше качество конечного результата, который вы можете предоставить пользователю. По сути, это все равно что дать человеку больше времени и ресурсов на выполнение задачи, чтобы он мог дважды и трижды проверить свою работу, выполнить одну и ту же базовую задачу несколькими разными способами и убедиться, что они получаются одинаковыми; взять полученный результат и «подставить» его в формулу, чтобы проверить, действительно ли он решает уравнение, и т. д.

Оказалось, что этот подход работает почти удивительно хорошо; по сути, он использует давно ожидаемую мощь так называемого «обучения с подкреплением» с мощью архитектуры Transformer. Он напрямую решает единственную самую большую слабость феноменально успешной в остальном модели Transformer, которая заключается в ее склонности к «галлюцинациям».

По сути, Transformer работают в плане предсказания следующего маркера на каждом шаге так: если они начинают идти по плохому «пути» в своем первоначальном ответе, они становятся почти как уклончивый ребенок, который пытается плести о том, почему он на самом деле прав, даже если он должен был понять в середине потока с помощью здравого смысла, что то, что он говорит, не может быть правильным.

Поскольку модели всегда стремятся быть внутренне последовательными и чтобы каждая последующая сгенерированная лексема естественным образом вытекала из предыдущих лексем и контекста, им очень трудно корректировать курс и отступать назад. Разбив процесс умозаключения на множество промежуточных этапов, они могут попробовать множество разных вещей, посмотреть, что работает, и продолжать корректировать курс и пробовать другие подходы, пока не достигнут достаточно высокого порога уверенности в том, что они не несут чушь.

Возможно, самое необычное в этом подходе, помимо того, что он вообще работает, заключается в том, что чем больше токенов логики/COT вы используете, тем лучше он работает. Внезапно у вас появился дополнительный диск, который можно повернуть так, что по мере увеличения количества маркеров COT-рассуждений (которые используют гораздо больше вычислений для выводов, как в плане FLOPS, так и в плане памяти), повышается вероятность того, что вы дадите правильный ответ - код, который запускается с первого раза без ошибок, или решение логической задачи без явно неверного шага дедукции.

На собственном опыте могу сказать, что, как бы ни была хороша модель Claude3.5 Sonnet от Anthropic в программировании на Python - а она действительно ОЧЕНЬ хороша, - всякий раз, когда вам нужно сгенерировать что-нибудь длинное и сложное, она неизменно допускает одну или несколько глупых ошибок. Эти ошибки, как правило, довольно легко исправить, и на самом деле их можно исправить, просто подав ошибки, сгенерированные интерпретатором Python, без каких-либо дополнительных объяснений, в качестве последующего запроса на вывод (или, что более полезно, вставить полный набор обнаруженных «проблем», найденных в коде вашим редактором кода, используя то, что называется Linter), но это все равно было раздражающим дополнительным шагом. А когда код становится очень длинным или очень сложным, его исправление может занять гораздо больше времени и даже потребовать ручной отладки.

Первый раз, когда я попробовал модель O1 от OpenAI, был похож на откровение: Я был поражен тем, как часто код оказывался идеальным с первого раза. А все потому, что процесс COT автоматически находит и устраняет проблемы еще до того, как они попадают в финальный маркер ответа, который выдает модель.

На самом деле модель O1, используемая в подписке OpenAI ChatGPT Plus за 20 долларов в месяц, - это практически та же модель, что и модель O1-Pro, представленная в их новой подписке ChatGPT Pro за 10-кратную цену (200 долларов в месяц, что вызвало много вопросов в сообществе разработчиков); главное отличие в том, что O1-Pro думает гораздо дольше, прежде чем ответить, генерирует гораздо больше логических маркеров COT и потребляет гораздо большее количество вычислений для вывода для каждого ответа.

Это поразительно: даже очень длинный и сложный запрос для Claude3.5 Sonnet или GPT4o с ~400 Кб+ контекста обычно требует менее 10 секунд для начала ответа, а часто и менее 5 секунд. В то время как на тот же запрос к O1-Pro может легко уйти 5+ МИНУТ, прежде чем вы получите ответ (хотя OpenAI показывает вам некоторые «шаги рассуждения», которые генерируются в процессе, пока вы ждете; критически важно, что OpenAI решил, предположительно по причинам, связанным с коммерческой тайной, скрыть от вас точные маркеры рассуждения, которые он генерирует, показывая вам вместо этого их очень сокращенное резюме).

Как вы, вероятно, можете себе представить, существует масса контекстов, где точность имеет первостепенное значение - где вы скорее сдадитесь и скажете пользователю, что не можете сделать это вообще, чем дадите ответ, который может быть тривиально доказан неверным или который включает в себя галлюцинации или другие спекулятивные рассуждения. Все, что связано с деньгами/транзакциями, медициной, юриспруденцией, и так далее.

В принципе, там, где стоимость умозаключений тривиальна по сравнению с почасовой оплатой труда человека, взаимодействующего с системой ИИ, это тот случай, когда увеличение COT-вычислений становится совершенно бессмысленным (главный недостаток - значительное увеличение задержки ответов, поэтому все еще есть контексты, в которых вы можете предпочесть ускорить итерации за счет получения менее точных или правильных ответов с меньшей задержкой).

Одна из самых интересных новостей в мире ИИ появилась всего несколько недель назад и касалась новой, еще не выпущенной модели OpenAI O3, которая смогла решить большое количество задач, которые ранее считались недоступными для современных подходов к ИИ в ближайшей перспективе. И способ, которым она смогла решить эти сложнейшие задачи (включающие исключительно сложные «фундаментальные» математические задачи, которые было бы очень сложно решить даже высококвалифицированным профессиональным математикам), заключается в том, что OpenAI бросил на решение задач безумное количество вычислительных ресурсов - в некоторых случаях на решение одной задачи тратилось более 3 тысяч долларов вычислительной мощности (сравните это с традиционными затратами на вывод для одной задачи, которые вряд ли превысят пару долларов при использовании обычных моделей-трансформеров без цепочки размышлений).

Не нужно быть гением ИИ, чтобы понять, что эта разработка создает новый закон масштабирования, который совершенно не зависит от первоначального закона масштабирования перед обучением. Теперь вы по-прежнему хотите обучить лучшую модель, используя как можно больше вычислений и как можно больше триллионов токенов высококачественных обучающих данных, но это только начало истории в этом новом мире; теперь вы можете легко использовать невероятно огромные объемы вычислений только для того, чтобы делать выводы на основе этих моделей на очень высоком уровне доверия или при попытке решить чрезвычайно сложные задачи, требующие рассуждений «уровня гения», чтобы избежать всех потенциальных ловушек, которые могут сбить с пути обычную LLM.

Но почему Nvidia должна получить все преимущества?​

Даже если вы, как и я, верите в то, что перспективы развития ИИ практически невообразимо радужны, все равно остается вопрос: «Почему одна компания должна извлекать большую часть прибыли из этой технологии?» Безусловно, существует множество исторических случаев, когда очень важная новая технология меняла мир, но главными победителями становились не те компании, которые казались наиболее перспективными на начальных этапах процесса. Компания по производству самолетов братьев Райт во всех ее нынешних воплощениях в различных фирмах сегодня стоит не более 10 миллиардов долларов, несмотря на то что они изобрели и усовершенствовали технологию намного раньше всех остальных. И хотя рыночная стоимость компании Ford сегодня составляет 40 миллиардов долларов, это всего лишь 1,1% от текущей рыночной стоимости Nvidia.

Чтобы понять это, важно понять, почему Nvidia сегодня захватывает такую большую часть пирога. В конце концов, это не единственная компания, которая вообще производит графические процессоры. AMD выпускает достойные GPU, которые на бумаге имеют сопоставимое количество транзисторов, производятся по аналогичным технологическим узлам и т. д. Конечно, они не такие быстрые или продвинутые, как GPU Nvidia, но это не значит, что GPU Nvidia в 10 раз быстрее или что-то в этом роде. На самом деле, в пересчете на наивные/сырые доллары за FLOP, GPU AMD примерно в два раза дешевле GPU Nvidia.

Если взглянуть на другие рынки полупроводников, например, на рынок DRAM, то, несмотря на то, что он также очень сильно консолидирован всего тремя значимыми глобальными игроками (Samsung, Micron, SK-Hynix), валовая маржа на рынке DRAM варьируется от отрицательной в нижней части цикла до ~60% в самой верхней части цикла, в среднем в районе 20%. Сравните это с общей валовой маржой Nvidia, составлявшей в последние кварталы ~75%, которая снижается за счет более низкодоходной и товарной категории потребительской 3D-графики.

Как же такое возможно? Ну, основные причины связаны с программным обеспечением - лучшими драйверами, которые «просто работают» в Linux и имеют высокую надежность (в отличие от AMD, которая печально известна низким качеством и нестабильностью своих драйверов для Linux), и высоко оптимизированным открытым кодом в популярных библиотеках, таких как PyTorch, который был настроен для работы на GPU Nvidia.

Но дело не только в этом - сама среда программирования, которую кодеры используют для написания низкоуровневого кода, оптимизированного для GPU, CUDA, полностью принадлежит Nvidia, и она стала стандартом де-факто. Если вы хотите нанять группу чрезвычайно талантливых программистов, которые знают, как сделать так, чтобы все работало очень быстро на GPU, и платите им 650 тысяч долларов в год или любую другую ставку для людей с подобной квалификацией, есть шанс, что они будут «думать» и работать в CUDA.

Помимо превосходства в программном обеспечении, еще одним важным преимуществом Nvidia является так называемый интерконнект - по сути, пропускная способность, позволяющая эффективно соединять тысячи GPU, чтобы совместно использовать их для обучения передовых современных фундаментальных моделей. Короче говоря, ключ к эффективному обучению заключается в том, чтобы все графические процессоры были задействованы как можно полнее все время, а не простаивали, пока не получат очередную порцию данных, необходимых для вычисления следующего шага процесса обучения.

Требования к пропускной способности чрезвычайно высоки, гораздо выше, чем типичная пропускная способность, необходимая в традиционных центрах обработки данных. Для такого соединения нельзя использовать традиционное сетевое оборудование или оптоволокно, поскольку это приведет к слишком большим задержкам и не обеспечит чистую пропускную способность в терабайтах в секунду, необходимую для постоянной работы всех графических процессоров.

Nvidia приняла невероятно умное решение приобрести израильскую компанию Mellanox в 2019 году всего за 6,9 миллиарда долларов, и именно это приобретение обеспечило им ведущую в отрасли технологию межсоединений. Обратите внимание, что скорость межсоединений гораздо важнее для процесса обучения, где вам нужно объединить производительность тысяч GPU одновременно, чем для процесса вывода (включая вывод COT), который может использовать всего несколько GPU - все, что вам нужно, это достаточно VRAM для хранения квантованных (сжатых) весов модели, которая уже обучена.

Вот, пожалуй, основные компоненты «рва» Nvidia и то, как ей удается сохранять столь высокую маржу в течение столь долгого времени (есть также аспект «маховика», когда они агрессивно инвестируют свои сверхнормативные прибыли в тонны разработок (R&D), что, в свою очередь, помогает им улучшать свои технологии быстрее, чем конкуренты, поэтому они всегда лидируют в плане сырой производительности).

Но, как было отмечено ранее, то, что действительно волнует покупателей при прочих равных условиях, - это производительность на доллар (как в виде первоначальных капитальных затрат на оборудование, так и в виде энергопотребления, то есть производительность на ватт), и хотя GPU Nvidia, безусловно, самые быстрые, они не являются лучшими по соотношению цена/производительность, если их наивно оценивать в FLOPS.

Но дело в том, что все остальные вещи НЕ равны, и тот факт, что драйверы AMD - отстой, что популярные программные библиотеки ИИ не работают так же хорошо на GPU AMD, что вы не можете найти действительно хороших экспертов по GPU, которые специализируются на GPU AMD за пределами игрового мира (зачем им беспокоиться, если на рынке есть больший спрос на экспертов по CUDA? ), что вы не можете соединить тысячи из них вместе так же эффективно из-за паршивой технологии межсоединений для AMD - все это означает, что AMD в принципе не конкурентоспособна в мире высококлассных центров обработки данных и, похоже, не имеет хороших перспектив попасть туда в ближайшей перспективе.

Что ж, все это звучит очень оптимистично для Nvidia, верно? Теперь вы понимаете, почему акции компании торгуются с такой высокой оценкой! Но какие еще тучи маячат на горизонте? Есть несколько, которые, на мой взгляд, заслуживают особого внимания. Некоторые из них затаились на заднем плане в течение последних нескольких лет, но были слишком малы, чтобы повлиять на ситуацию, учитывая, как быстро рос пирог, но сейчас они готовятся к потенциальному перегибу. Другие - это совсем недавние события (например, последние 2 недели), которые могут кардинально изменить ближайшую траекторию роста спроса на GPU.

Основные угрозы​

На самом высоком уровне можно рассуждать следующим образом: Nvidia долгое время работала в довольно нишевой области; у нее было очень мало конкурентов, а конкуренты не были особенно прибыльными или достаточно быстро растущими, чтобы представлять реальную угрозу, поскольку у них не было капитала, необходимого для того, чтобы оказать давление на такого лидера рынка, как Nvidia. Игровой рынок был большим и растущим, но не отличался ни потрясающей рентабельностью, ни особо впечатляющими темпами годового роста.

Несколько крупных технологических компаний начали увеличивать число сотрудников и расходы на машинное обучение и искусственный интеллект в 2016-2017 годах, но в совокупности это никогда не было действительно значимой статьей расходов для каждой из них - скорее, это были расходы на R&D в рамках «пальцем в небо». Но как только большая гонка ИИ началась всерьез с выходом ChatGPT в 2022 году - всего чуть более 2 лет назад, хотя с точки зрения развития событий кажется, что прошла целая жизнь, - ситуация резко изменилась.

Внезапно крупные компании оказались готовы невероятно быстро потратить многие, многие миллиарды долларов. Количество исследователей, появляющихся на крупных научных конференциях, таких как Neurips и ICML, очень и очень сильно возросло. Все умные студенты, которые раньше изучали финансовые деривативы, вместо этого стали изучать Transformer, а компенсационные пакеты в размере более $1 млн за неисполнительные инженерные роли (то есть за независимый вклад, не управляющий командой) стали нормой в ведущих лабораториях ИИ.

Чтобы изменить направление движения огромного круизного лайнера, требуется время; и даже если вы действуете очень быстро и тратите миллиарды, на строительство новых центров обработки данных, заказ всего оборудования (с огромными сроками изготовления) и его настройку и работу уйдет год или больше. Потребуется много времени, чтобы нанять и принять на работу даже толковых кодеров, прежде чем они смогут по-настоящему освоиться с существующими кодовыми базами и инфраструктурой.

Но теперь вы можете себе представить, что в этой области тратятся совершенно библейские суммы капитала, мозгов и усилий. И у Nvidia на спине самая большая мишень из всех игроков, потому что именно они получают львиную долю прибыли СЕГОДНЯ, а не в каком-то гипотетическом будущем, когда ИИ будет управлять всей нашей жизнью.

Поэтому главный вывод заключается в том, что «рынки находят способ»; они находят альтернативные, радикально инновационные подходы к созданию аппаратного обеспечения, которые используют совершенно новые идеи для обхода барьеров, помогающих укрепить ров Nvidia.

Угроза на аппаратном уровне​

Например, так называемые «пластинчатые» чипы для обучения ИИ от Cerebras, которые выделяют целую 300-миллиметровую кремниевую пластину под абсолютно гигантский чип, содержащий на порядки больше транзисторов и ядер на одном кристалле (см. недавнюю запись в их блоге, объясняющую, как им удалось решить «проблему выхода», которая мешала такому подходу быть экономически целесообразным в прошлом).

Если сравнить новейший чип WSE-3 от Cerebras с флагманским GPU для центров обработки данных от Nvidia, H100, то общая площадь кристалла Cerebras составляет 46 225 квадратных миллиметров против всего 814 у H100 (а H100 сам по себе считается огромным чипом по отраслевым меркам); это кратное увеличение в ~57 раз! И вместо 132 ядер «потокового мультипроцессора», как у H100, чип Cerebras имеет ~900 000 ядер (конечно, каждое из этих ядер меньше и выполняет гораздо меньше задач, но все равно это почти непостижимо большое число). Если говорить более конкретно, то чип Cerebras может выполнять примерно в 32 раза больше FLOPS в контексте ИИ, чем один чип H100. Поскольку H100 продается по цене около 40 тысяч долларов за штуку, вы можете себе представить, что чип WSE-3 стоит недешево.

Так почему же все это имеет значение? Вместо того чтобы попытаться сразиться с Nvidia в лоб, используя аналогичный подход и пытаясь сравниться с технологией межсоединений Mellanox, Cerebras применила радикально инновационный подход, чтобы обойти проблему межсоединений: пропускная способность межпроцессорных соединений становится гораздо менее важной проблемой, когда все работает на одном сверхбольшом чипе. Вам даже не нужно иметь одинаковый уровень межсоединений, потому что один мегачип заменяет тонны H100.

Кроме того, чипы Cerebras отлично подходят для задач искусственного интеллекта. На самом деле, вы можете попробовать это сегодня бесплатно здесь и использовать очень приличную модель Llama-3.3-70B от Meta. Она реагирует практически мгновенно, со скоростью ~1 500 токенов в секунду. Для сравнения, все, что выше 30 токенов в секунду, кажется пользователям относительно быстрым по сравнению с ChatGPT и Claude, и даже 10 токенов в секунду - это достаточно быстро, чтобы вы могли прочитать ответ, пока он генерируется.

Cerebras также не одинока: есть и другие компании, например Groq (не путать с семейством моделей Grok, обученных X AI Илона Маска). Groq применила еще один инновационный подход к решению той же фундаментальной проблемы. Вместо того чтобы пытаться напрямую конкурировать с программным стеком CUDA от Nvidia, они разработали так называемый «тензорный процессор» (TPU), который специально предназначен для выполнения математических операций, необходимых моделям глубокого обучения. Их чипы разработаны на основе концепции «детерминированных вычислений», что означает, что, в отличие от традиционных GPU, где точное время выполнения операций может меняться, их чипы выполняют операции совершенно предсказуемым образом каждый раз.

Это может показаться незначительной технической деталью, но на самом деле это имеет огромное значение как для проектирования чипов, так и для разработки программного обеспечения. Поскольку время выполнения операций полностью детерминировано, Groq может оптимизировать свои чипы таким образом, который был бы невозможен при использовании традиционных архитектур GPU. В результате за последние 6 с лишним месяцев они продемонстрировали скорость вывода более 500 токенов в секунду с моделями серии Llama и другими моделями с открытым исходным кодом, что значительно превышает возможности традиционных GPU. Как и Cerebras, это приложение доступно уже сегодня, и вы можете попробовать его бесплатно здесь.

Используя сопоставимую модель Llama3 со «спекулятивным декодированием», Groq способна генерировать 1320 токенов в секунду, что наравне с Cerebras и намного превышает возможности обычных GPU. Вы можете спросить, какой смысл в достижении скорости 1 000+ токенов в секунду, когда пользователи, кажется, вполне довольны ChatGPT, который работает менее чем на 10% от этой скорости. Дело в том, что это имеет значение. Получая мгновенную обратную связь, можно гораздо быстрее проводить итерации и не терять концентрацию, как человек. А если вы используете модель программно, через API, на что все больше и больше растет спрос, то это позволяет создавать совершенно новые классы приложений, требующих многоступенчатого умозаключения (когда результаты предыдущих этапов используются в качестве входных данных на последующих этапах подсказки/умозаключения) или требующих откликов с малой задержкой, таких как модерация контента, обнаружение мошенничества, динамическое ценообразование и т. д.

Но еще более важно то, что чем быстрее вы можете обслуживать запросы, тем быстрее вы можете выполнять циклы и тем более загруженным может быть оборудование. Хотя оборудование Groq очень дорогое - от 2 до 3 миллионов долларов за один сервер, - в итоге каждый выполненный запрос обходится гораздо дешевле, если спрос достаточен для того, чтобы оборудование постоянно было занято.

Как и Nvidia с CUDA, огромная часть преимуществ Groq связана с собственным стеком программного обеспечения. Они могут брать те же модели с открытым исходным кодом, которые другие компании, такие как Meta, DeepSeek и Mistral, разрабатывают и выпускают бесплатно, и декомпозировать их особым образом, что позволяет им работать значительно быстрее на их специфическом оборудовании.

Как и Cerebras, они приняли различные технические решения для оптимизации определенных аспектов процесса, что позволяет им делать вещи принципиально иным способом. В случае Groq это связано с тем, что они полностью сосредоточены на вычислениях на уровне выводов, а не на обучении: все их аппаратное и программное обеспечение под особым соусом дает огромные преимущества в скорости и эффективности только при выполнении выводов на уже обученной модели.

Но если следующий большой закон масштабирования, о котором так много говорят, будет касаться вычислений на уровне выводов, и если самым большим недостатком COT-моделей является высокая задержка, связанная с необходимостью генерировать все эти промежуточные логические маркеры, прежде чем они смогут ответить, то даже компания, которая занимается только вычислениями на уровне выводов, но делает это значительно быстрее и эффективнее, чем Nvidia, может стать серьезной конкурентной угрозой в ближайшие годы. По крайней мере, Cerebras и Groq могут пошатнуть завышенные ожидания роста доходов Nvidia в ближайшие 2-3 года, которые заложены в текущую оценку акций.

Помимо этих инновационных, хотя и относительно неизвестных конкурентов-стартапов, серьезную конкуренцию составляют некоторые из крупнейших клиентов Nvidia, которые сами производят кремний на заказ, специально предназначенный для обучения ИИ и вычисления рабочих нагрузок. Возможно, самым известным из них является Google, которая разрабатывает собственные TPU с 2016 года. Интересно, что, хотя компания недолго продавала TPU внешним заказчикам, последние несколько лет она использует все свои TPU внутри компании, и уже работает над шестым поколением аппаратных TPU.

Amazon также разрабатывает собственные чипы под названиями Trainium2 и Inferentia2. В то время как Amazon строит дата-центры с миллиардами долларов графических процессоров Nvidia, они одновременно инвестируют многие миллиарды в другие дата-центры, использующие эти внутренние чипы. В одном из кластеров, который они запускают для Anthropic, используется более 400 тысяч чипов.

Amazon много критикуют за то, что они совершенно не умеют разрабатывать свои внутренние модели ИИ, растрачивая огромное количество внутренних вычислительных ресурсов на модели, которые в итоге оказываются неконкурентоспособными, но собственный кремний - это совсем другое дело. Опять же, им не обязательно нужно, чтобы их чипы были лучше и быстрее, чем у Nvidia. Им нужно, чтобы их чипы были достаточно хороши, но при этом они производились с безубыточной валовой маржой вместо ~90%+ валовой маржи, которую Nvidia зарабатывает на своем бизнесе H100.

OpenAI также объявила о своих планах по созданию пользовательских чипов, и они (вместе с Microsoft), очевидно, являются крупнейшим пользователем оборудования Nvidia для центров обработки данных. Как будто этого недостаточно, Microsoft сама анонсировала свои собственные чипы!

А Apple, самая дорогая технологическая компания в мире, уже много лет срывает ожидания благодаря своим инновационным и революционным заказным кремниевым операциям, которые теперь полностью превосходят процессоры от Intel и AMD по производительности на ватт, что является наиболее важным фактором в мобильных приложениях (телефоны/планшеты/ноутбуки). И они уже много лет выпускают собственные GPU и «нейронные процессоры», хотя им еще предстоит продемонстрировать полезность таких чипов за пределами собственных приложений, таких как передовая программная обработка изображений, используемая в камере iPhone.

В то время как фокус Apple кажется несколько ортогональным к этим другим игрокам с точки зрения его мобильного, ориентированного на потребителя, «edge compute» фокуса, если он закончит тратить достаточно денег на свой новый контракт с OpenAI, чтобы предоставить услуги ИИ для пользователей iPhone, вы должны представить, что у них есть команды, рассматривающие возможность создания своего собственного кремния для вывода/обучения (хотя, учитывая их секретность, вы можете даже никогда не узнать об этом напрямую!).

Не секрет, что распределение клиентов Nvidia имеет вид силового закона, и львиная доля высокодоходной выручки приходится на горстку крупнейших клиентов. Как можно думать о будущем этого бизнеса, если буквально каждый из этих VIP-клиентов создает свои собственные чипы, специально предназначенные для обучения и вычисления ИИ?

Размышляя обо всем этом, следует помнить об одной невероятно важной вещи: Nvidia - это в основном компания, основанная на IP. Они не производят свои собственные чипы. Настоящий особый соус для создания этих невероятных устройств, вероятно, в большей степени исходит от TSMC, фактической фабрики, и ASML, которая производит специальные машины для EUV-литографии, используемые TSMC для производства этих чипов на передовых технологических узлах. И это очень важно, потому что TSMC будет продавать свои самые передовые чипы любому, кто придет к ним с достаточными предварительными инвестициями и будет готов гарантировать определенный объем производства. Им все равно, будут ли это ASIC для майнинга биткоинов, GPU, TPU, SoC для мобильных телефонов и т.д.

Столько, сколько зарабатывают в год старшие дизайнеры чипов в Nvidia, несомненно, можно переманить у других технологических гигантов за достаточное количество денег и акций. А когда у них будет команда и ресурсы, они смогут разработать инновационные чипы (опять же, возможно, даже не на 50% более совершенные, чем H100, но с такой валовой маржой Nvidia есть с чем работать) за 2-3 года, а благодаря TSMC они смогут воплотить их в реальном кремнии, используя точно такую же технологическую ноду, как и Nvidia.