В Казахстане разработана большая языковая модель KazLLM: Город Астана, 13 Декабря 2024 года - новости на сайте gurk.kz

В Казахстане разработана большая языковая модель KazLLM

В Казахстане разработана большая языковая модель KazLLM

В Казахстане разработана большая языковая модель KazLLM

В Казахстане завершено обучение большой языковой модели KazLLM на основе 148 миллиардов токенов на казахском, английском, русском и турецком языках. Модель разработана командой Института Умных Систем и Искусственного Интеллекта (ISSAI) при Nazarbayev University при поддержке и координации МЦРИАП РК и МНВО РК.

Данная модель будет доступна широкому кругу пользователей, включая научное сообщество, стартапы и крупные корпорации. В соответствии с инициативой Главы Государства, KazLLM станет основой для создания более масштабного проекта — TurkLLM, направленного на развитие технологий обработки естественного языка в тюркоязычном пространстве. Соответствующее соглашение было подписано на прошедшем саммите ОТГ.

Этот проект станет важной вехой в создании национальной AI- инфраструктуры и подтверждением статуса Казахстана в качестве технологического лидера региона. Реализация проекта поспособствовала не только созданию передового инструмента искусственного интеллекта, но и росту компетенции и развития человеческого капитала в области искусственного интеллекта.

Свой вклад в реализацию этого проекта внесли такие лингвистические институты и научно-производственные организации, как Тил Казына, АО «НИТ», Maqsut Narikbayev University и др. институты.

«Запуск модели Kaz LLM с открытым исходным кодом представляет собой важный шаг вперед в развитии экосистемы искусственного интеллекта Казахстана. Эта инициатива отражает нашу приверженность поддержке инноваций и продвижению научных достижений, которые способствуют технологическому прогрессу. Я уверен, что эта передовая модель поможет преодолеть цифровое неравенство, обеспечив доступные и инклюзивные цифровые услуги для каждого казахстанца»,- отметил министр Жаслан Мадиев.

Модель была обучена на базе 148 миллиардов токенов. Создано две версии с 8 миллиардами и 70 миллиардами параметров. Они служат основой для разработки новых продуктов в сфере искусственного интеллекта и превосходит аналогичные модели по качеству и точности.

На первом этапе KazLLM будет доступна в открытом доступе для разработчиков, стартапов и компаний, чтобы стимулировать создание продуктов и сервисов на ее основе. Подготовлены подробные инструкции, которые помогут быстро интегрировать модель в различные проекты.

«Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологической экосистемы. Наша команда подготовила две версии KAZ-LLM с 8 миллиардами и 70 миллиардами параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах так и на ноутбуках», - рассказал Директор Института Умных Систем и Искусственного Интеллекта (ISSAI) при Nazarbayev University профессор NU Хусейн Атакан Варол.

Ключевыми партнерами в создании национальной языковой модели стали Beeline Казахстан и его ИТ-компания QazCode. Объединив усилия и опыт в разработке языковых моделей, таких как Kaz-RoBERTA, а также в создании ИИ-решений для малых языковых групп в партнерстве с зарубежными организациями, компании сыграли важную роль в создании инновационной и доступной модели для казахстанцев. Поддержка в виде предоставленного сервера с вычислительными мощностями 8 DGX H100 значительно ускорили процесс обучения и расширили возможности модели.

Для сравнения: обычному компьютеру нужно несколько дней, чтобы проанализировать архив из 1 миллиона фотографий. В то время как 8 серверов DGX H100, используемых для тренировки KAZ-LLM, справятся с этой задачей всего за несколько секунд.

«Наша команда активно участвовала в разработке и обучении модели Kaz-LLM. Сложный процесс, включающий создание модели, учитывающей особенности казахского языка, и 50 дней вычислений, позволил улучшить понимание контекста и обеспечить качественное взаимодействие с пользователями. Тестирование показало, что модель эффективно решает технические задачи, учитывая культурные особенности. Мы уверены, что Kaz-LLM станет важным инструментом для всего Казахстана, помогая преодолеть языковой цифровой барьер и улучшить качество цифровых сервисов в регионе», - прокомментировал СЕО QazCode Алексей Шаравар.

KazLLM — это современная языковая модель искусственного интеллекта, созданная для обработки, анализа и генерации текстов на казахском языке. Это уникальная разработка, нацеленная на продвижение использования казахского языка в цифровом пространстве, поддержку бизнеса, науки и общества. Она способна выполнять широкий спектр задач: от перевода и обработки документов до автоматизации общения.

Национальная модель даст возможность бизнесу разработать чат- боты, системы поддержки клиентов, автоматизировать документооборот и проводить анализ данных. Например, локальные банки смогут ускорить обработку запросов на казахском языке, а ритейл — улучшить пользовательский опыт за счет внедрения модели в свои процессы. Образовательные и научные учреждения смогут создать приложения для обучения казахскому языку, а также инструменты для анализа научных текстов и помощи студентам. Для тех, кто занимается медиа и контентом появится возможность генерировать новости, улучшать качество перевода и создавать инструменты для написания текстов.

Ссылка для использования KazLLM:

https://huggingface.co/collections/issai/issai-kazllm-10- 6732d58c81bcaf177442c362

 

Пресс-служба МЦРИАП РК



Источник: Министерство цифрового развития, инноваций и аэрокосмической промышленности Республики Казахстан


Подписывайтесь на наш Telegram канал, и будте в курсе всех важных событий, вот ссылка - https://t.me/gurkkz

gurk.kz
<p><strong>В Казахстане завершено обучение большой языковой модели </strong><strong>KazLLM</strong><strong> на основе 148 миллиардов токенов на казахском, английском, русском и турецком языках. Модель разработана командой Института Умных Систем и Искусственного Интеллекта </strong><strong>(</strong><strong>ISSAI</strong><strong>) при </strong><strong>Nazarbayev</strong> <strong>University</strong><strong> при поддержке и координации МЦРИАП РК и МНВО РК.</strong></p> <p>Данная модель будет доступна широкому кругу пользователей, включая научное сообщество, стартапы и крупные корпорации. В соответствии с инициативой Главы Государства, KazLLM станет основой для создания более масштабного проекта — <strong>TurkLLM</strong>, направленного на развитие технологий обработки естественного языка в тюркоязычном пространстве. Соответствующее соглашение было подписано на прошедшем саммите ОТГ.</p> <p>Этот проект станет важной вехой в создании национальной AI- инфраструктуры и подтверждением статуса Казахстана в качестве технологического лидера региона. Реализация проекта поспособствовала не только созданию передового инструмента искусственного интеллекта, но и росту компетенции и развития человеческого капитала в области искусственного интеллекта.</p> <p>Свой вклад в реализацию этого проекта внесли такие лингвистические институты и научно-производственные организации, как Тил Казына, АО «НИТ», Maqsut Narikbayev University и др. институты.</p> <p>«Запуск модели Kaz LLM с открытым исходным кодом представляет собой важный шаг вперед в развитии экосистемы искусственного интеллекта Казахстана. Эта инициатива отражает нашу приверженность поддержке инноваций и продвижению научных достижений, которые способствуют технологическому прогрессу. Я уверен, что эта передовая модель поможет преодолеть цифровое неравенство, обеспечив доступные и инклюзивные цифровые услуги для каждого казахстанца»,<strong>- отметил министр Жаслан Мадиев.</strong></p> <p>Модель была обучена на базе 148 миллиардов токенов. Создано две версии с 8 миллиардами и 70 миллиардами параметров. Они служат основой для разработки новых продуктов в сфере искусственного интеллекта и превосходит аналогичные модели по качеству и точности.</p> <p>На первом этапе KazLLM будет доступна в открытом доступе для разработчиков, стартапов и компаний, чтобы стимулировать создание продуктов и сервисов на ее основе. Подготовлены подробные инструкции, которые помогут быстро интегрировать модель в различные проекты.</p> <p>«Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологической экосистемы. Наша команда подготовила две версии KAZ-LLM с 8 миллиардами и 70 миллиардами параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах так и на ноутбуках», - рассказал <strong>Директор Института Умных Систем и Искусственного Интеллекта </strong><strong>(</strong><strong>ISSAI</strong><strong>) при </strong><strong>Nazarbayev</strong> <strong>University</strong><strong> профессор </strong><strong>NU</strong><strong> Хусейн Атакан Варол.</strong></p> <p>Ключевыми партнерами в создании национальной языковой модели стали Beeline Казахстан и его ИТ-компания QazCode. Объединив усилия и опыт в разработке языковых моделей, таких как Kaz-RoBERTA, а также в создании ИИ-решений для малых языковых групп в партнерстве с зарубежными организациями, компании сыграли важную роль в создании инновационной и доступной модели для казахстанцев. Поддержка в виде предоставленного сервера с вычислительными мощностями 8 DGX H100 значительно ускорили процесс обучения и расширили возможности модели.</p> <p>Для сравнения: обычному компьютеру нужно несколько дней, чтобы проанализировать архив из 1 миллиона фотографий. В то время как 8 серверов DGX H100, используемых для тренировки KAZ-LLM, справятся с этой задачей всего за несколько секунд.</p> <p>«Наша команда активно участвовала в разработке и обучении модели Kaz-LLM. Сложный процесс, включающий создание модели, учитывающей особенности казахского языка, и 50 дней вычислений, позволил улучшить понимание контекста и обеспечить качественное взаимодействие с пользователями. Тестирование показало, что модель эффективно решает технические задачи, учитывая культурные особенности. Мы уверены, что Kaz-LLM станет важным инструментом для всего Казахстана, помогая преодолеть языковой цифровой барьер и улучшить качество цифровых сервисов в регионе», <strong>- прокомментировал СЕО </strong><strong>QazCode</strong><strong> Алексей Шаравар.</strong></p> <p>KazLLM — это современная языковая модель искусственного интеллекта, созданная для обработки, анализа и генерации текстов на казахском языке. Это уникальная разработка, нацеленная на продвижение использования казахского языка в цифровом пространстве, поддержку бизнеса, науки и общества. Она способна выполнять широкий спектр задач: от перевода и обработки документов до автоматизации общения.</p> <p>Национальная модель даст возможность бизнесу разработать чат- боты, системы поддержки клиентов, автоматизировать документооборот и проводить анализ данных. Например, локальные банки смогут ускорить обработку запросов на казахском языке, а ритейл — улучшить пользовательский опыт за счет внедрения модели в свои процессы. Образовательные и научные учреждения смогут создать приложения для обучения казахскому языку, а также инструменты для анализа научных текстов и помощи студентам. Для тех, кто занимается медиа и контентом появится возможность генерировать новости, улучшать качество перевода и создавать инструменты для написания текстов.</p> <p>Ссылка для использования KazLLM:</p> <p><a href="https://huggingface.co/collections/issai/issai-kazllm-10-6732d58c81bcaf177442c362">https://huggingface.co/collections/issai/issai-kazllm-10-</a> <a href="https://huggingface.co/collections/issai/issai-kazllm-10-6732d58c81bcaf177442c362">6732d58c81bcaf177442c362</a></p> <p align="right"> </p> <p align="right"><strong>Пресс-служба МЦРИАП РК</strong></p>

Еще новости региона