ФОРС – Центр разработки
Москва, Трифоновский тупик, д. 3
Москва, Графский переулок, д. 14, корп. 2
Новости и события
Наверняка на проектах вы сталкивались с необходимостью наполнения справочников объёмными массивами данных. И если на такую задачу вы закладывали более одного дня, то это крайнее неэффективный подход, ведь можно использовать автозагрузчик, который есть на многих low-code платформах. Однако на подготовку файла для автозагрузчика из слабоструктурированных данных порой уходит ненамного меньше времени, чем на ручное внесение этих данных в справочник системы. Поэтому в данной статье я хочу поделиться своим опытом использования нейросети для решения подобных задач.
Задача по наполнению справочника вручную достаточно трудоёмкая и её поручают, как правило, новым сотрудникам. А я как раз недавно пришёл в компанию. И так случилось, что меня попросили вручную заполнить все статьи КоАП (Кодекса административных правонарушений) РФ и Москвы в справочник на проекте. Я сразу же спросил о возможностях автозагрузки, чтобы не тратить на это дни монотонной работы. А любая монотонная работа, как вы понимаете, больше всех остальных подвержена человеческому фактору. Например, когда ты, вбивая данные час за часом, задумываешься о планах на вечер и копируешь информацию не в то поле, а потом удивляешься, как допустил такую ошибку.
Платформа, которую мы используем на наших проектах, предоставляет возможность экспортировать и импортировать данные при работе со справочниками, чтобы избежать подобных ситуаций с ручным заполнением. Данный функционал доступен в кабинете администратора, в пункте "Служебные задачи". Здесь можно как экспортировать данные в форматах CSV, JSON, XML и XLSX через служебную задачу, так и загрузить данные в систему. Но импорт осуществляется только в XLSX формате, поэтому перед загрузкой данных в справочник необходимо выгрузить в XLSX хотя бы один экземпляр, чтобы у нас был шаблон для дальнейшего наполнения реальными данными. Далее в таблице XLSX необходимо удалить некоторые технические столбцы по типу guid'а, содержащие данные о пользователе, дате изменения объектов и т.д. Удаляем экземпляры, которые уже существуют в справочнике, и потом в выгруженную excel-таблицу добавляем те данные, которые необходимо добавить в справочник. И далее загружаем их одним кликом вместо нескольких часов ручного труда.
Но в некоторых случаях у нас нет готовых данных для каждого поля на экранной форме, как это было у меня при наполнении статей КоАП. Необходимо было одну часть статьи записать в одно поле, а другую в другое. Следовало также разделить описание статей и добавить свои приставки, которых нет в документе изначально. Например, в документе мы видим наименование статьи "Статья 5.1. Нарушение правил содержания домашних животных", в которой далее по тексту описано 9 частей данной статьи. И каждую часть этой статьи необходимо внести в справочник отдельным экземпляром. В таком случае для структурирования информации лучше воспользоваться возможностями нейросети. Это мощнейший инструмент для работы с различного рода информацией, полезный во многих областях. Мне кажется, он станет незаменимым для будущих поколений каким, к примеру, стал сегодня мобильный телефон.
В данном конкретном случае для решения поставленной задачи я использовал последнюю версию Chat GPT-4o mini.
Нейросети нужно задать ряд правил и инструкций, чтобы она составила по ним XLSX таблицу для загрузки в справочник. Это настолько гибкий инструмент, что я не могу описать конкретику при его использовании, но в своём кейсе я учил нейронку сначала работать с одной статьёй и добивался такого результата, чтобы мне на выходе она выдавала XML код, который при загрузке в excel составлял уже готовую таблицу со всеми необходимыми данными для их импорта в справочник. Например, та же статья 5.1 пишем нейронке такое правило: "Для заполнения поля code в excel таблице используй номер статьи с приставкой 'КМ-', а в поле «name» записывай наименование без номера статьи", и далее направляешь ей пример, как это должно выглядеть, чтобы она точнее поняла правила.
Здесь нет ничего сложного. Нейросеть это не какая-то хитрая программа, с которой нужно общаться на техническом языке. Вы можете разговаривать с ней, как с вашим подопечным и отдавать различные указания. Поэтому не нужно быть специалистом по обучению нейросетей для того, чтобы пользоваться ею при решении подобных задач.
Отмечу, что в процессе обучения важно проверять и прорабатывать все варианты, которые могут случиться при обработке источника данных нейронкой. Например, как она поведёт себя, если в статье будут части, которые утратили силу? Что будет, если в статье будет пояснение, занимающее большую часть статьи? А такие пояснения загружать в справочник не нужно. И так далее. После корректировки всех таких нюансов и проверки достаточного ряда кейсов мы получаем рабочий инструмент, который отлично справляется с поставленной задачей и способен обрабатывать сотни аналогичных статей.
Так у меня получился инструмент для создания таблицы в формате XLSX, которую я загрузил в справочник КоАП РФ и Москвы без ручного труда. Так что пользуйтесь нейросетями в своих задачах и всегда ищите варианты автоматизации, чтобы у вас оставалось больше времени на важные дела!
Москва, Трифоновский тупик, д. 3
Москва, Графский переулок, д. 14, корп. 2
Москва, Графский переулок, д. 14, корп. 2
Москва, ул. Авиамоторная, д. 8, стр. 12, 5 этаж
Москва, Трифоновский тупик, д. 3
Москва, Графский переулок, д. 14, корп. 2
Москва, Графский переулок, д. 14, корп. 2
Москва, ул. Авиамоторная, д. 8, стр. 12, 5 этаж
Благодарим за ваш запрос.
Мы обязательно
свяжемся с вами!
Благодарим Вас!
Регистрация
прошла успешно.