Огромные данные намеренно стирают грань между хранилищем и базой данных

В зависимости от того, как на это посмотреть, база данных — это своего рода сложная система хранения, или хранилище — это своего рода сокращение базы данных. В реальном мире, где базы данных и хранилища разделены, между ними наверняка существует непрерывный процесс взаимодействия. Нет никаких сомнений в том, что реляционные базы данных способствовали созданию систем хранения в такой же степени (и в совершенно разных направлениях), как и рабочие нагрузки по обслуживанию файлов, а затем и объектов.

Что, если бы вам не пришлось делать такой выбор? Что, если бы ваше хранилище было настоящей, добросовестной и честной базой данных? Что, если Vast Data, новый производитель кластеров флэш-хранилищ, которые лучше работают с сетевой файловой системой и имеют гораздо больший масштаб, чем более сложные (и менее полезные) NoSQL или объектные хранилища, думали об этом с самого момента своего основания? что создание нового типа хранилища для управления новым типом встроенной базы данных всегда было планом? Что, если искусственный интеллект всегда был в планах, а симуляция и моделирование HPC могли бы прийти на помощь?

Что ж, платформа Vast Data Platform, как теперь называют этот гибрид хранилища и базы данных, всегда была планом. И этот план всегда был чем-то большим, чем просто Universal Storage, который был задуман в начале 2016 года соучредителями Рененом Халлаком, главным исполнительным директором компании, Шахаром Файнблитом, вице-президентом по исследованиям и разработкам, и Джеффом Денвортом, вице-президентом по продуктам и технологиям. директор по маркетингу и запущена в феврале 2019 года. Это следующая отдельная платформа, а это значит, что ей также придется делать умные вещи с вычислениями. Так может быть, в конце концов, она будет называться просто Vast Platform? Но не будем забегать вперед.

Опять же, почему бы и нет? Соучредители Vast Data сделали это еще когда-то.

«Еще в 2015 году в моей презентации был один слайд о хранении во всей презентации, в которой было около пятнадцати слайдов», — рассказывает Халлак The Next Platform. «В одном из них было хранилище, в остальных были другие части, которые нужно было построить, чтобы эта революция ИИ действительно произошла так, как должна. Восемь лет назад искусственный интеллект представлял собой кошек в видеороликах на YouTube, которых идентифицировали как кошек. Это не было близко к тому, что есть сегодня. Но было совершенно ясно, что если в ближайшие двадцать лет в секторе ИТ произойдет что-то важное, то это будет искусственный интеллект, и мы хотели быть его частью. Мы хотели возглавить его. Мы хотели дать возможность другим принять участие в этой революции, которая, казалось, могла ограничиться несколькими очень крупными организациями. И нам это не понравилось. Мы хотим демократизировать эту технологию».

А это значит больше, чем просто создание масштабируемой файловой системы NFS и системы объектного хранения нового поколения на основе флэш-памяти. Это означает думать на все более высоких уровнях стека и объединять концепции хранения данных и базы данных с большими наборами данных из мира природы, которые все чаще лежат в основе приложений искусственного интеллекта.

Данные больше не ограничиваются ограниченным количеством текста и чисел в строках или столбцах базы данных, а представляют собой данные высокого разрешения — видео, звук, геномика и т. д. — которые могли бы нарушить работу обычной реляционной базы данных. Рабочим нагрузкам ИИ требуются огромные объемы данных для построения моделей и высокая производительность для обучения моделей, а иногда и огромный объем вычислений для выполнения выводов на основе новых данных по мере их поступления в модель. Все это оказывает огромное давление на систему хранения при доставке информации – с чем может справиться Universal Storage компании Vast Data, дезагрегированная реализация NFS с общим доступом ко всему, имеющая очень мелкомасштабное хранилище квазиобъектов.

«Данные имеют гораздо большую значимость, чем вычисления», — добавляет Халлак. «Он больше, и по нему труднее передвигаться. И поэтому, играя в этом пространстве ИИ, мы не можем ограничиваться только частью данных. Мы должны что-то знать и иметь мнение о том, как организованы данные. Речь идет о нарушении компромиссов, и это не просто вопрос хранения. Если вы удалите это хранилище слов и поместите в базу данных слов, возникнут те же проблемы. Стоимость, производительность, масштаб, отказоустойчивость, простота использования – это не условия хранения. Это очень общие термины информатики».