КМ-Проект Миграция-Полевые материал-Цифровые данные


полевые материалы

Цифровые данные

МИГРАЦИОННЫЕ ПОЛИТИКИ, ИНФРАСТРУКТУРА И ЭКСТРАЛЕГАЛЬНОЕ МИГРАЦИОННОЕ ПОВЕДЕНИЕ НА ВОСТОЧНЫХ ГРАНИЦАХ РОССИИ

При изучении повседневности мигрантов, в том числе в цифровом пространстве применяют методы цифровой этнографии — digital ethnography (включенного наблюдения в цифровом пространстве, интервью, проводимых при помощи ИКТ или полностью в цифровой среде и тп). Для наблюдения и регулирования миграционных процессов, а также их прогнозирования применяют методы сбора и анализа цифровых следов мигрантов (digital footprints). При изучении поведения мигрантов в цифровом пространстве применяют методы интеллектуального анализа текстов (natural language processing).


Регрессионный анализ. Пример применения.

Топ 25 самых употребляемых слов и коллокаций в предложениях о вакансиях трудовым мигрантам

Большинство сообщений выгруженных нами из мессенджеров содержали сообщения о вакансиях. Для того, чтобы отбросить сообщения, которые не являются предложениями о вакансиях, мы создали модель классификации сообщений на основе модели случайного леса. При тестировании точности модели на тестовых данных метрика F1 составила 0.9617. Выделив из всех данных только предложения о вакансиях, мы получили выборку из 2376 сообщений–предложений о вакансиях. Далее мы использовали методы нормализации текста и провели коллокационный анализ.

Контент предопределяет те темы, вокруг которых мы могли «задавать» исследовательские вопросы. Наиболее очевидными являются: дискриминация по полу, возрасту или другим характеристикам; факторы, влияющие на уровень заработной платы; условиях жизни и работы трудовых мигрантов; прекарность позиций (продолжительность «контракта», сезонность, условия входа и выхода); стоимость, спектр услуг посредника; экстралегальность пребывания (наличие и обязательность рабочей визы), др.

Пример выделения значимых для исследовательского вопроса признаков наблюдений

Каждый из этих вопросов может потребовать своего метода анализа (в т.ч. из тех, что рассмотрены выше). Для ответа на вопрос о факторах, влияющих на уровень заработной платы, логично использовать метод регрессионного анализа. Чтобы привести данные к форме, подходящей для регрессионного анализа, тексты сообщений о вакансиях должны быть разбиты на составные признаки: заработная плата, требуемый пол и т.д. Пример структуризации таких данных представлен в таблице слева.