Natural Language Processing (NLP)

Даты проведения курса

Выберите удобное для вас число,
запишитесь на курс, заполнив простую форму

направление: Big Data кол-во дней: 5

кол-во часов: 40

код курса: STX-NLP

Описание
Программа курса

Глубокий курс по обработке текстовых данных и NLP с Python. Освещает токенизацию, векторизацию, классификацию текста, работу с современными NLP-библиотеками и моделями.

Предварительные требования

знание Python

Цели курса

После курса вы сможете:

• Проводить комплексный анализ данных с помощью Python;

• Очищать и агрегировать большие наборы данных;

• Создавать визуализации и интерактивные отчеты;

• Применять статистические методы для проверки гипотез;

• Подготавливать данные для моделирования и машинного обучения.

Часть 1

1. Основы NLP

• Что такое обработка естественного языка

• Задачи NLP в бизнесе

• Особенности текстовых данных

• Проблемы языка

2. Подготовка текстовых данных

• Очистка текста

• Приведение к нижнему регистру

• Удаление стоп-слов

• Удаление пунктуации

• Работа с регулярными выражениями

3. Токенизация и нормализация

• Токенизация

• Стемминг

• Лемматизация

• Работа с библиотеками NLTK и spaCy

Часть 2

4. Bag-of-Words

• Создание словаря

• Матрица “документ-термин”

• Ограничения модели

5. TF-IDF

• Формула TF-IDF

• Интерпретация весов

• Практическая реализация

6. N-граммы

• Униграммы, биграммы, триграммы

• Влияние размера окна

Часть 3

7. Классификация текста

• Задача классификации

• Разделение на train/test

• Подготовка пайплайна

8. Алгоритмы

• Задача классификации

• Разделение на train/test

• Подготовка пайплайна

9. Метрики оценки

• Задача классификации

• Разделение на train/test

• Подготовка пайплайна

Часть 4

10. Векторные представления слов

• Ограничения BoW и TF-IDF

• Word2Vec

• GloVe

• FastText

• Косинусное сходство

11. Последовательные модели

• RNN

• LSTM

• GRU

• Проблема исчезающего градиента

12. Проверка гипотез

• Формулировка H0 и H1

• p-value

• Уровень значимости

• t-test

• ANOVA

• Chi-square test

Часть 5

13. Архитектура Transformer

• Self-Attention

• Multi-head attention

Encoder / Decoder

14. BERT и современные модели

• Предобученные модели

• Fine-tuning

• Hugging Face Transformers

15. Прикладные задачи

• Анализ тональности

• Named Entity Recognition (NER)

• Question Answering

• Классификация документов

Natural Language Processing (NLP)

Даты проведения курса

Записать на курс

Ваша заявка успешно отправлена!