Выберите удобное для вас число,
запишитесь на курс, заполнив простую форму
Глубокий курс по обработке текстовых данных и NLP с Python. Освещает токенизацию, векторизацию, классификацию текста, работу с современными NLP-библиотеками и моделями.
Предварительные требования
знание Python
Цели курса
После курса вы сможете:
• Проводить комплексный анализ данных с помощью Python;
• Очищать и агрегировать большие наборы данных;
• Создавать визуализации и интерактивные отчеты;
• Применять статистические методы для проверки гипотез;
• Подготавливать данные для моделирования и машинного обучения.
Часть 1
1. Основы NLP
• Что такое обработка естественного языка
• Задачи NLP в бизнесе
• Особенности текстовых данных
• Проблемы языка
2. Подготовка текстовых данных
• Очистка текста
• Приведение к нижнему регистру
• Удаление стоп-слов
• Удаление пунктуации
• Работа с регулярными выражениями
3. Токенизация и нормализация
• Токенизация
• Стемминг
• Лемматизация
• Работа с библиотеками NLTK и spaCy
Часть 2
4. Bag-of-Words
• Создание словаря
• Матрица “документ-термин”
• Ограничения модели
5. TF-IDF
• Формула TF-IDF
• Интерпретация весов
• Практическая реализация
6. N-граммы
• Униграммы, биграммы, триграммы
• Влияние размера окна
Часть 3
7. Классификация текста
• Задача классификации
• Разделение на train/test
• Подготовка пайплайна
8. Алгоритмы
• Задача классификации
• Разделение на train/test
• Подготовка пайплайна
9. Метрики оценки
• Задача классификации
• Разделение на train/test
• Подготовка пайплайна
Часть 4
10. Векторные представления слов
• Ограничения BoW и TF-IDF
• Word2Vec
• GloVe
• FastText
• Косинусное сходство
11. Последовательные модели
• RNN
• LSTM
• GRU
• Проблема исчезающего градиента
12. Проверка гипотез
• Формулировка H0 и H1
• p-value
• Уровень значимости
• t-test
• ANOVA
• Chi-square test
Часть 5
13. Архитектура Transformer
• Self-Attention
• Multi-head attention
Encoder / Decoder
14. BERT и современные модели
• Предобученные модели
• Fine-tuning
• Hugging Face Transformers
15. Прикладные задачи
• Анализ тональности
• Named Entity Recognition (NER)
• Question Answering
• Классификация документов