Стриминговое приложение Hera, разработанное казахстанцами, уже работает в США и странах Европы. А мобильная студия Defuse тех же разработчиков открывает новые возможности для бизнеса и образования. Оба проекта компании Higgsfield AI вошли в топ-25 стартапов мира. О развитии IT в Казахстане, разработке и продвижении уникальных проектов и использовании AI корреспондент центра деловой информации Kapital.kz побеседовал с генеральным директором, основателем Higgsfield AI Ерзатом Дулатом.
- Ерзат Канатулы, на расширенном заседании правительства вы говорили, что за 9 месяцев запустили два продукта, которые уже получили международное признание, что позволило вам войти в топ-25 стартапов мира по версии Google. Это мобильная студия для создания контента Defuse, упрощающая создание видео из текста, и платформа для генерации контента, открывающая новые возможности для бизнеса и образования. Как называется второй проект?
- Defuse было нашим первым приложением, которое мы запустили в декабре 2023 года, активно им занимались зимой 2024 года, и весной оно вышло на пик – до 2 миллионов пользователей.
После этого мы начали разрабатывать новое приложение Hera. Это стриминговое приложение, где вместо настоящего контента будет AI-контент. Мы хотим попробовать построить большой бизнес.
На данный момент у нас ещё не было масштабного запуска Hera, но приложение уже доступно в США, в Европе, но пока там не весь контент сейчас генерируется AI, есть в том числе и обычный контент. Мы делаем замеры, насколько отличается статистика просмотров между AI и не AI, и мы сейчас имеем данные, что люди не могут различить. Они одинаково смотрят эти два вида контента.
В отличие от старых стриминговых приложений, где люди смотрят в основном на телевизорах, Gera предназначена для вертикальных видео. Они очень короткие, но супердинамичные, потому что сейчас, в эпоху Tik Tok, у зрителя поменялось поведение и потребление контента, поэтому чтобы быть рыночно успешными, контент должен быть более тиктоковским. В основном у приложения Gera женская аудитория.
Мы только недавно начали, порядка 2,5 месяца назад, и понятно, что мы только в начале пути. Но мы очень быстро растём, нас смотрят порядка 50 тысяч уникальных пользователей в месяц.
- Как возникла идея создания именно таких двух направлений?
- Изначально мы занимались DeepTech (англ. deep technologies «глубокие технологии»). Мы создавали компанию, которая одна из первых в мире тренирует нейронные сети для видео. То есть мы уже полтора года как активно работаем в этом направлении, и до сих пор технологически входим в топ лидирующих по технологии видеогенерации. Первые 9 месяцев у нас было два направления: первое – это тренировка нейронных сетей для видео-, медиагенерации, а также для картинок.
Второе направление – нам нужно было научиться делать качественные сonsumer-приложения, которые могут масштабироваться на большое количество пользователей. Это было предложение Defuse, на котором мы писали инфраструктуру. Оно было промежуточным приложением, и теперь следующий виток – развитие приложения Gera.
- Какие финансовые планы наметили на 2025 год?
- Мы стартап, у нас все быстро меняется, быстро адаптируется, много сильной конкуренции на рынке, поэтому самое главное для нас – быстро двигаться, быть гибкими. Глобально, на этот год, наши планы – наращивать количество пользователей у Gera, увеличивать количество платящих пользователей, и дальше технологически быть лидерами, потому что конкуренция очень серьёзная, много китайских и американских компаний в нашей сфере.
На данный момент мы собрали одну из самых сильных в СНГ маркетинговых команд, у нас подход к маркетингу основан полностью на анализе данных.
В Higgsfield AI мы быстро растём. Вначале очень много денег тратили на разработку технологии. Мы технологию разработали, много патентов сделали, и поэтому наша компания достаточно сильная с точки зрения интеллектуальной собственности. Технически наши разработки, инфраструктура и крепкая команда позволили начать коммерческие продукты делать.
Если смотреть на прибыль компании, то она экспоненциально растёт. Цифры быстро растут, но мы пока их не разглашаем.
- На совещании правительства, в котором вы участвовали, министр цифровизации говорил, что в Казахстане будет запущен фонд фондов венчурных инвестиций на базе Astana Hub. Он говорил, что целевой размер фонда составляет уже миллиард долларов, и собраны предварительные заявки инвесторов на сумму 130 миллионов. Будет ли ваша компания принимать участие в привлечении финансирования их фонда, и как это в целом позволит развивать IT-индустрию в Казахстане?
- Я про него слышал, и идея, конечно, очень позитивно повлияет на индустрию. Я думаю, это будет эффективным решением, потому что у нас созрело много новых, очень хороших стартапов, и проблема была в недостатке больших финансов. Есть стартапы на ранней стадии, которые поднимают небольшие чеки на поиск product-market fit: вывода на рынок первичных продуктов, а потом нужно скалироваться (scaling – масштаб), необходим экзит (exit – выход, продажа своей доли в компании), чтобы кто-то купил. И по последним двум этапам в Казахстане как такового рынка не было.
Среди понятных, старых примеров – компания Chocolife. По сути, она была очень сильной, занималась доставкой еды, но потом, так как у нас не было рынка дальше в них инвестировать, иностранные игроки просто пришли и рынок захватили.
Поэтому, надеюсь, что это позитивно на индустрию повлияет, и стартапы смогут дальше расти и увеличиваться.
- Получали ли вы когда-либо господдержку, и в целом чего не хватает у нас в Казахстане для развития IT-талантов?
- Казахстан – социальное государство. Я думаю, в той или иной степени все получали господдержку. К примеру, я окончил государственную топовую республиканскую физико-математическую школу (РФМШ). У меня все инженеры окончили наши топовые государственные университеты. Поэтому в любом случае, если по таким базовым вещам смотреть, то государство поддерживало тем, что инвестировало глобально в науку, в высокотехнологическое образование: физика, математика, IT, машинное обучение.
- Вы в интервью говорили, что Higgsfield AI – это будущий конкурент Open AI, только в сфере генерации медиа и видео. Поясните, пожалуйста, для меня не совсем понятно, что значит обучение с подкреплением, и каковы в целом функции агента, который находится в среде и пытается оптимизировать функцию награды?
- Это стандартные вещи из машинного обучения. Чтобы нейронную сеть обучать, применяется метод оптимизации, называется Reinforcement Learning (обучение с подкреплением), когда вы обучаете нейронную сеть.
Open AI одними из первых начали этим заниматься, поэтому они такие большие сейчас. Они непосредственно ChatGPT обучали так, чтобы её ответы нравились пользователю. Большое количество людей сидело, которых они наняли, давали награду. Награды здесь в виде того, правильно ли ответил бот или неправильно, корректно – некорректно, токсично – нетоксично, полезно – неполезно. Такая система и называется «обучение с подкреплением».
Может, вы слышали, вышла китайская модель DeepSeek, она тоже была натренирована с помощью обучения с подкреплением.
В мире мало компаний, которые могут делать обучение с подкреплением, я был одним из первых специалистов, мной было написано много работ в этом направлении. Мало кто знает, как искусственный интеллект работает «под капотом». Обучение с подкреплением – это самая сложная вещь и важная в тренировке нейронной сети.
Долгое время в обучение с подкреплением никто не верил. Например, я сам занимался этим не на коммерческой основе, а просто как ресёрч, независимо ни от кого, а потом оказалось, что это действительно работает, и сейчас, когда мы инвестиции из Америки привлекали, сильно помогло наличие нашего многолетнего опыта.
- Вы после окончания школы решили не поступать в вуз, потому что посчитали, что казахстанские вузы ничему новому вас не научат. По сути, стали самоучкой, а в 2018 году ваши идеи стали обсуждать, а затем даже использовать в Гарварде и других университетах и ведущих исследовательских лабораториях. Более того, личное сообщение от главы OpenAI Сэма Альтмана, которое вы отклонили. При этом как все происходило, не было ни минуты колебаний?
- Я был очень молодой, это был юношеский максимализм просто. Конечно, мои родители не особо поддержали в этом, потому что у меня дедушка одним из первых в своё время получил высшее образование в Оренбурге, в Москве, в Санкт-Петербурге, и, конечно, он переживал сильно, что внук решил не получать высшее образование.
- Но вы были убеждены в своём решении? Для наших молодых ребят, которые талантливы в какой-то сфере, на что им опираться в таких решениях? К примеру, Роберт Кийосаки даже написал целую книгу «Если хочешь стать богатым и счастливым, не ходи в школу». Может быть, и в университеты наши не стоит ходить, чтобы просто так не просиживать время?
- Сейчас я бы, конечно, не был бы столь категоричным, потому что уже с опытом и, например, все ребята, кого мы нанимаем – выпускники лучших университетов: Назарбаев университета, Московского физико-технического института (очень сильный вуз по физике).
У меня просто так совпало, что в школе я был олимпийцем по физике, выигрывал международные олимпиады, республиканские, а когда ты олимпиадами занимаешься, то уже в школе, по сути, изучаешь университетский курс физики. Поэтому я бы мог в университет пойти, но я бы уже весь курс бакалавра практически знал и учился чисто для корочки.
Поэтому не то, чтобы я думал, что университетское образование нет смысла получать, просто я знал, что уровень бакалавриата уже знаю, так как усиленно олимпиадами занимался, и хотел изучать искусственный интеллект, а в университетах его ещё не преподавали, потому что в 2013 году я школу окончил, тогда даже computer science, то есть программирование, не преподавали нормально в университетах, а искусственного интеллекта в университетах тем более не было.
- Но, мне кажется, учитывая ваш практический опыт, вы бы уже давно были доктором PhD. Я слушала один из трёхчасовых подкастов, где многие процессы вы расписывали очень подробно. Мне кажется, даже далеко не каждый выпускник физмата помнит все эти нюансы. У вас есть какие-то планы получить высшее образование, или считаете, что это не нужно?
- Ну у меня точно есть в планах научной деятельностью заниматься. В вуз вряд ли я уже буду поступать, а научной деятельностью мы как компания занимаемся как DeepTech стартап. Много патентов уже написали и в США зарегистрировали. В планах есть этим заниматься. Не обязательно в университете для этого быть, очень много инноваций было сделано в частных лабораториях, поэтому это норма.
- То есть, например, можно стать доктором PhD, переступив одну ступень. Или даже две: бакалавриат и магистратуру.
- Есть знаменитый физик Дайсон, один из мощнейших учёных XX века, кто без PhD получил Нобелевскую премию по физике. Понятно, везде есть исключения. Возможно, я буду PhD в будущем делать, когда уже много свободного времени будет, то есть это для души, можно так сказать. В принципе это распространённая практика в Силиконовой долине. Многие люди, кто сперва пытались какие-то коммерческие проекты сделать, потом когда они продавали и становились успешными, уже при выходе на пенсию делали PhD, это на самом деле в долине достаточно распространено.
- Я слушала подкаст, где вы поясняли, что старые нейросети CNN, RNN были созданы Джеффри Хинтоном и Яном Лекуном ещё в 1980-х, в 1990-х годах, а затем молодые студенты начали на них накидывать GPU (графический процессор, отдельное устройство для игровой приставки). Вы решили пойти по другому пути. Чем ваш подход отличается от ChatGPT, и какие преимущества он имеет?
- Вы задали очень большой вопрос. Вы не можете нейронные сети обучать на своём телефоне или на ноутбуке. Для этого нужны специализированные видеокарты, специализированные процессоры для параллельных вычислений. И так оказалось, что видеокарты, которые для игр создавались, подходят для обучения нейронных сетей.
По поводу OpenAI – понятно, что это большая компания, она много этим занимается, но наш подход в том, что мы занимаемся узким кейсом. Мы сфокусированы именно на генерации длинного видеоконтента, который уже готов для потребления. Это, например, готовая серия сериала может быть, или готовый небольшой фильм, а в OpenAI –есть видеогенерация, но она пока заточена для дизайнеров.
Мы не знаем, как OpenAI будет дальше развиваться. У них очень большая прибыль на текстовой модели ChatGPT. Возможно, они только на них будут сфокусированы, может быть, они сильнее пойдут в видеогенерацию, но вряд ли OpenAI будет становиться Netflix, потому что у них бизнес-модель другая, а мы именно в эту узкую сферу идём.
- Вы являетесь одним из первых специалистов в Казахстане по машинному обучению и формировали отделы машинного обучения в таких компаниях, как Kaspi.kz, Kolesa, ERG. Какие наиболее крупные прикладные проекты удалось запустить благодаря этому?
- На тот момент компании уже какие-то департаменты аналитики данных открывали, и они хотели какие-то более продвинутые вещи: не просто какой-то анализ данных, а уже что-то более такое связанное, например, с компьютерным зрением, с обработкой естественного языка. И я обучал ребят самым последним вещам, которые на тот момент были, и потом каждый делал какой-то проект.
Ребята в Kaspi делали PimEyes: Face Recognition (распознавание лиц), ребята в Kolesa, там мой близкий друг, и на тот момент он был моим студентом, вёл проект, который уже много лет действует на данном ресурсе, когда вы фотографию машины загружаете, и автоматом закрашивается номер машины, чтобы его в объявлении не было видно или, например, на сайте вы видите средние цены в своём районе. Это тоже статистическая модель делает, автоматическое моделирование контента.
Когда много объявлений в классификаторе люди закидывают, это нужно или очень много людей, которые вручную должны все это проверять, но это медленно и сложно с операционной точки зрения, или же это может быть простая модель машинного обучения, которая сразу может фильтровать, не допустить спам, или то, что не соответствует действительности.
Таких проектов очень много было, потому что было много ребят, кого я обучал, и каждый из них потом в конце курса делал какой-то свой проект.
В ERG это была дочерняя компания, которая занималась IT-решениями, поэтому там тоже стандартные айтишные вещи были. У них был сервис, возможно, до сих пор есть, где можно смотреть новости, видео, и системы могли рекомендовать человеку следующие посты на основе того, что он посмотрел или прочитал.
- Вы ещё говорили о том, что ваша команда состоит исключительно из IT-специалистов Казахстана. Если не секрет, какова средняя зарплата у вас в компании, и как шёл переговорный процесс? Всегда ли финансы были предопределяющими? То есть как вы заманивали самых лучших казахстанских специалистов к себе?
- Финансы были точно не главным фактором. Многие ребята были согласны выходить уже без озвучивания заработной платы, потому что им было очень интересно. То есть нужно понимать, что когда топовые специалисты много лет своей жизни посвятили изучению математики, физики, компьютерных наук, машинному обучению, дальше, конечно, все хотят на практике реализовать все свои знания. И для Казахстана, к сожалению, пока ещё работать над интересными, наукоёмкими, какими-то передовыми инновационными продуктами – это всё-таки пока ещё привилегия, в основном такие проекты в Америке запускаются. Туда надо попасть, получить разрешение на работу, как-то освоиться, и потом там устроиться.
Наши ребята underrepresented (недопредставлены) в этом смысле, поэтому просто возможность того, что когда я звал ребят работать над передовыми технологиями, тренировать свою большую нейронную сеть, мало компаний в мире вообще этим занимается, конечно, все были сразу согласны. И очень много людей, топовых специалистов хотели у нас работать изначально, и сейчас хотят, поэтому мы надеемся, будем расти ещё больше, наших самых сильных ребят нанимать.
А по заработной плате, так как мы инвестиции в США подняли, то, конечно, мы решили платить рыночные зарплаты нашим ребятам. Да, мы не платим зарплаты как в Силиконовой долине, в Америке, где очень перегретый рынок, но и там очень дорогая стоимость жизни. Мы платим на уровне топовых компаний в Европе.
Суммы на самом деле открыты. Если посмотреть, когда мы постили, наши стартовые суммы от $5000 зарплаты для специалистов машинного обучения. У нас есть как очень опытные ребята, так и те, которые только после университета вышли.
- Какие советы дали бы начинающим, у которых есть амбициозные проекты, но пока они в стадии идеи?
- Это тоже достаточно обширный вопрос. Это зависит от того, чем человек хочет заниматься. Если он хочет стартап делать, бизнес, то, конечно, здесь недостаточно только идеи технической, надо понимать тайминг, нужно ли это рынку сейчас, созрели ли венчурные инвесторы инвестировать в такие технологии, потому что когда ещё в 2023 году я уже всем рассказывал про обучение с подкреплением и хотел тренировать нейронную сеть как DeepSeek – то, что китайцы сейчас сделали, тогда никто навстречу не пошёл, никто не поверил, что это будет работать, и венчурным инвесторам было неинтересно. Потому что они не специалисты именно в технологии, поэтому они не понимали, что это будет работать, и что это очень перспективно.
Надо понимать, до чего рынок созрел, нужно тайминг смотреть. Но это очень обширный вопрос, надо много изучать. В интернете достаточно есть ресурсов, плейбуков, как это делать.
- Одновременно с развитием искусственного интеллекта часто говорят об этической составляющей и о контроле над искусственным интеллектом, чтобы система, например, не помогала тем же киберпреступникам в их действиях, потому что они могут там дипфейки создавать. Всегда ли эта этическая составляющая учитывается при разработке каких-то моделей, и есть ли вероятность или риск того, что искусственный интеллект всё-таки когда-нибудь сможет выйти из-под контроля?
- Ну да, конечно, риск такой есть, и он достаточно серьёзный. Например, есть искусственный интеллект, который может в сфере биологии генерировать новые вирусы и тому подобные вещи делать. Всем государствам мира нужно очень серьёзно за этим следить. То, что меня больше всего беспокоит, это неподконтрольный искусственный интеллект в сфере биологии, это сильно пугает. В принципе какой-нибудь студент может уже с помощью искусственного интеллекта перепрограммировать вирус ковида и создать его новую версию, это вполне возможно уже с текущими технологиями, которые в открытом доступе есть. Это очень серьёзно, и это должны контролировать государства и все международное сообщество.
В сфере кибербезопасности – то же самое. У европейцев есть европейские акты искусственного интеллекта, где они делят на категории рисков: высокого риска – биологическое оружие, это взлом атомных станций, каких-то важных инфраструктурных объектов. Есть среднего риска, это обман граждан в том, что можно уже и голоса генерировать, и очень много мошеннических схем появляются и будет появляться. С этим государство должно бороться. Например, как наше государство пытается разобраться, как технологии работают, чтобы потом им что-то противопоставить.
Конечно, мошенники быстро очень придумывают методы, но в любом случае нужно с ними бороться. Методы есть. Если этим серьёзно заниматься, то можно противостоять.
- Вы говорили о том, что рано или поздно людям из киноиндустрии придётся конкурировать с искусственным интеллектом, и он научится снимать целые фильмы. Недавно, например, на Digital Almaty белорусская сторона говорила, что они уже мультфильм сняли, мы показывали небольшой ролик, когда наш премьер-министр выступал. Вы сегодня больше помогаете продвигать SMM в крупных компаниях благодаря приложению Defuse. На ваш взгляд, какие профессии в ближайшее время могут исчезнуть благодаря цифровым технологиям?
- Я бы не сказал, что эти профессии исчезнут, потому что сами такие процессы очень инерционные. Например, театры же тоже не исчезли, хотя кино появилось, то есть просто будут сокращаться рынки.
Например, точно будет сокращаться рынок VFX – это всякие различные спецэффекты компьютерной графики в фильмах, но самые продвинутые VFX-специалисты уже осваивают искусственный интеллект, чтобы использовать его вместо своих каких-то традиционных технологий.
Конечно, классическим кинопроизводителям сильно придётся конкурировать, будь то актёры, операторы, режиссёры, художники-постановщики и так далее. Им нужно будет контролировать, или же осваивать искусственный интеллект.
То есть, например, художник-постановщик, который расставляет реквизиты, создаёт это пространство, где фильм будут снимать, он это в физическом мире делает. Если он освоит инструменты искусственного интеллекта, то он может это сделать ещё быстрее, чем ему собирать из реквизитов какое-то местоположение, это же он физически должен делать, это очень много денег стоит.
Если он мысленно уже представил, как нужно показать пространство, он это может с помощью искусственного интеллекта просто сгенерить и быть намного эффективнее.
Те же режиссёры: у них в голове какое-то видение есть, как всё должно выглядеть, и они оркеструют на площадке, чтобы отснять фильм. Они могут точно так же или освоить сами искусственный интеллект и режиссировать с помощью искусственного интеллекта свой фильм, или же с помощью prompt-инженеров: людей, которые освоили искусственный интеллект, чтобы они видение режиссёра правильно передали.
То есть, скорее всего, первый этап – это будет всё объединяться, и далее постепенно это будет эволюционировать. Что интересное будет, на мой взгляд – то, что сам порог входа очень сильно упадёт, уже падает. Раньше, если вы хотели кинопроизводством заниматься, вам нужно было большие бюджеты выбивать, вы должны были быть режиссёром с именем.
Сейчас, если вы просто молодой человек с видением в голове какого-то фильма, сериала, контента, вы можете просто без ничьей помощи, если много времени этому уделить, собрать контент без огромных, многомиллионных бюджетов, и если нашу индустрию брать как передовую, то я уже вижу там ребят, которые небольшие фильмы делают, очень качественные, и они могут быть с различным бэкграундом, у которых нет миллиона долларов, они просто у себя дома на компьютере собирают сцены и генерят, которые пару лет назад стоили бы миллион долларов, чтобы отснять и сделать спецэффекты.
И в 2025 году будет сильный бум контента. Социальные сети просто наполнятся AI-контентом, будут появляться сериалы, фильмы, потому что порог входа очень сильно опустился, любой молодой парень или девушка, если у них видение есть, могут за своим компьютером собрать очень качественную историю. И это всё попадёт в соцсети, это всё будет набирать очень много просмотров, и, конечно, будут просто новые жанры и контенты созданы и глобально.
Конечно, более взрослое поколение привыкло смотреть отснятые фильмы, но молодое поколение уже будет смотреть контент, который с помощью искусственного интеллекта полностью был сделан.
- Вопрос по поводу приложения Defuse. Для тех, кто совершенно не умеет монтировать видео и вообще в этом не разбирается. Я в интернете пока не нашла таких обучающих видео, как пользоваться приложением. Если, например, я хочу создать кулинарный блог, будут ли для новичков обучающие видео?
- Defuse для этого не подойдёт. Это приложение развлекательное, то есть у нас сейчас фокус уже не на Defuse, мы в начале 2024 года им занимались, оно развлекательное. Оно вначале ещё было бесплатным, чтобы прикольные видео сгенерировать, как вы, например, танцуете, ещё что-то делаете, это такое баловство, оно для развлечения создано. А для профессионального кейса у нас есть веб-приложение, веб-сайт Real Magic. Оно тоже платное, там можно месячную подписку купить. Но оно, конечно, всё-таки для профессионалов, кто уже умеет работать с видео. По нему есть реалы, как с ним работать, то есть вы туда можете идею своего блога написать, и потом вам сгенерируются в виде комикса фреймы, это мы называем раскадровка, потом вы можете каждый кадр отсмотреть, поменять, если он вам не нравится, затем анимировать, и всё это склеить, у вас получится видео.
- Не будет ли такой возможности, чтобы, к примеру, написать текст рецепта, а приложение само сняло видео?
- Это тоже возможно, но оно не будет высокого качества. Нужен prompt-инженер, который умеет промтить искусственный интеллект, именно видеомодель. Но я думаю, в течение полугода технология дойдёт до того, что вы уже сможете просто написать, и вам сразу система выдаст хороший результат, который вам сразу с первого раза понравится. Но для этого ещё нужно время, плюс-минус полгода. А сейчас, если вы хотите качественное видео сделать, сначала нужно обучиться, посмотреть видео, а потом это всё равно качественная минута контента примерно один рабочий день занимает. На youtube есть очень много курсов, как становятся prompt-инженером, и у нашего сервиса тоже мы реалы записываем, чтобы люди по нему могли сделать.
- Но в течение полугода, как вы говорите, возможно, будет усовершенствование.
- 100%.
- Благодарю за интервью, успехов вам в реализации дальнейших планов!