Словарь терминов Python (DS): уровень 0, новичок
Перед поступлением в Elbrus Bootcamp студенты проходят подготовку — за три недели знакомятся с синтаксисом языка программирования, который им предстоит изучать, и его основными конструкциями. Чтобы упростить процесс подготовки, собрали словарь самых распространенных терминов, с которыми сталкивается любой начинающий data scientist, который пишет код на языке программирования Python.
Определения разделены на две категории: технологии и сервисы, с которыми вам предстоит работать, и основные понятия из области программирования.
Термины
Баг-репорт — подробное описание ошибки в работе программы с указание, где именно произошла ошибка и как она повлияла на работу программы. Чаще всего составлением таких документов занимается тестировщик.
База данных — набор упорядоченной информации, которая хранится на каком-то носителе. Например, на жестком диске или на сервере.
СУБД — это система управления базами данных. Так называют сложное программное обеспечение, которое требуется, чтобы создавать базы данных, изменять их, получать из них информацию и контролировать версии.
Компилятор — программа, которая переводит код на языке программирования, понятном человеку, на язык машинного кода, понятном компьютеру.
Массив — тип данных, который представляет собой набор упорядоченных и однотипных элементов. Массивы есть и в Python, и в большинстве других языков программирования.
Математическая статистика — наука, которая помогает анализировать большие объемы данных, описывать их и строить прогнозы.
Теория вероятностей — раздел математики, который изучает закономерности случайных явлений. Он лежит в основе работы с большими данными.
Объектно-ориентированное программирование (ООП) — парадигма программирования, которая рассматривает программу не как единое целое, а как набор объектов, взаимодействующих друг с другом.
Машинное обучение — набор методов искусственного интеллекта, которые позволяют использовать его для разных практических целей. Например, для автоматизации процессов, перевода текстов, распознавания изображений или видео.
Репозиторий — хранилище данных, которое можно сравнить с каталогом информации. В разных его частях содержится код — данные, к которым он обращается и другие файлы. Чаще всего употребляется в контексте распределенных систем управления версиями, таких как GitHub.
GitHub — это онлайн-хранилище версий кода, в которой несколько разработчиков могут одновременно писать код. Одновременно этом самая популярная соцсеть для программистов, где разработчики выкладывают код своих проектов, а их коллеги и рекрутеры могут оценить его качество.
Фреймворк — программная платформа, которая упрощает разработку. Она задает структуру, определяет правила и предоставляет необходимый набор инструментов для создания программы — какой, зависит от типа и назначения фреймворка.
Open Source — программное обеспечение с открытым исходным кодом. Чаще всего оно распространяется бесплатно, а принять участие его разработке или кастомизировать под свои нужды без нарушения авторских прав может любой разработчик.
Data Science — или наука о данных. Это раздел науки, связанной с разными аспектами работы с информацией: ее обработкой, анализом и использованием в практических целях.
Deep learning — глубокое машинное обучение. Это вид вид машинного обучения, при котором многослойные нейросети самостоятельно обучаются на больших массивах данных.
Технологии
Pandas — это библиотека для работы с данными для Python. Она предназначена для обработки больших данных и значительно упрощает работу с ними: там, где раньше нужно было написать 10 строк кода, с этим пакетом будет достаточно одной.
TensorFlow — Python-библиотека от Google, которая используется для построения и обучения нейронных сетей. С ее помощью, например, можно написать поисковый алгоритм или обучить нейросеть для автоматического перевода текста.
PyTorch — библиотека с открытым исходным кодом от Facebook, которая используется для обработки естественного языка и обучения нейросетей.
Matplotlib — это Python-библиотека для визуализации данных. С ее помощью можно строить различные визуализации данных: например, графики и диаграммы.
Seaborn — это расширение для Matplotlib, которое позволяет сделать сложные визуализации понятнее и привлекательнее.
NumPy — еще одна популярная библиотека для работы с данными. Ее главное преимущество — возможность работать с большими многомерными массивами данных и матрицами.
Хотите посмотреть словарь базового синтаксиса Python? — вам сюда.