Казахстан, г. Алматы, ул. Шевченко 90, БЦ «Каратал», офис 53
Казахстан, г. Астана, ул. Иманова 19, БЦ Деловой Дом "Алма-Ата", офис 612

Даты проведения курса

Выберите удобное для вас число,
запишитесь на курс, заполнив простую форму

город: Online
22.06.2026
-
26.06.2026 Идет набор группы
записаться на курс
направление: Big Data кол-во дней: 5
кол-во часов: 40
код курса: STX-NLP

Глубокий курс по обработке текстовых данных и NLP с Python. Освещает токенизацию, векторизацию, классификацию текста, работу с современными NLP-библиотеками и моделями.

Предварительные требования

знание Python

Цели курса

После курса вы сможете:

Проводить комплексный анализ данных с помощью Python;

Очищать и агрегировать большие наборы данных;

Создавать визуализации и интерактивные отчеты;

Применять статистические методы для проверки гипотез;

Подготавливать данные для моделирования и машинного обучения.

Часть 1

1. Основы NLP

Что такое обработка естественного языка

Задачи NLP в бизнесе

Особенности текстовых данных

Проблемы языка

2. Подготовка текстовых данных

Очистка текста

Приведение к нижнему регистру

Удаление стоп-слов

Удаление пунктуации

Работа с регулярными выражениями

3. Токенизация и нормализация

Токенизация

Стемминг

Лемматизация

Работа с библиотеками NLTK и spaCy

Часть 2

4. Bag-of-Words

Создание словаря

Матрица “документ-термин”

Ограничения модели

5. TF-IDF

Формула TF-IDF

Интерпретация весов

Практическая реализация

6. N-граммы

Униграммы, биграммы, триграммы

Влияние размера окна

Часть 3

7. Классификация текста

Задача классификации

Разделение на train/test

Подготовка пайплайна

8. Алгоритмы

Задача классификации

Разделение на train/test

Подготовка пайплайна

9. Метрики оценки

Задача классификации

Разделение на train/test

Подготовка пайплайна

Часть 4

10. Векторные представления слов

Ограничения BoW и TF-IDF

Word2Vec

GloVe

FastText

Косинусное сходство

11. Последовательные модели

RNN

LSTM

GRU

Проблема исчезающего градиента

12. Проверка гипотез

Формулировка H0 и H1

p-value

Уровень значимости

t-test

ANOVA

Chi-square test

Часть 5

13. Архитектура Transformer

Self-Attention

Multi-head attention

               Encoder / Decoder

14. BERT и современные модели

Предобученные модели

Fine-tuning

Hugging Face Transformers

15. Прикладные задачи

Анализ тональности

Named Entity Recognition (NER)

Question Answering

Классификация документов