Модель для фильтрации коммерческой тайны
- 作者: 1, 1, 1
-
隶属关系:
- Самарский государственный технический университет
- 期: 卷 1 (2025)
- 页面: 357-358
- 栏目: ЧАСТЬ I. Информационные технологии и техническая кибернетика
- ##submission.dateSubmitted##: 14.05.2025
- ##submission.dateAccepted##: 29.05.2025
- ##submission.datePublished##: 02.11.2025
- URL: https://rjsvd.com/osnk-sr2025/article/view/679667
- ID: 679667
如何引用文章
全文:
详细
Обоснование. На сегодняшний день все большую актуальность набирает использование больших языковых моделей (преимущественно это модели от OpenAI и Google, в виде chatGpt и Gemini). В результате чего появляются такие риски, как отсутствие нормативных требований, этнические и социальные риски, а самое главное — это риск утечки конфиденциальной информации.
В условиях нарастающей важности информационной безопасности и соблюдения конфиденциальности данные проекты приобретают критическую значимость. Защита коммерческой тайны необходима для поддержания конкурентоспособности предприятий и предотвращения утечек информации, которые могут привести к значительным финансовым потерям и репутационному ущербу. Быстрое и точное распознавание таких данных является важной задачей для обеспечения качественной работы с информацией [1].
Актуальный на сегодняшний день вопрос почему бы не использовать локальные или отечественные языковые модели? Ответ прост, они не в полной мере проработаны, чтобы давать более точные ответы, а зачастую они галлюцинируют.
Актуальность выбранной темы заключается в том, что защита коммерческой тайны критически важна для предотвращения утечек, финансовых потерь, а также для исключения урона имиджу компании, а для повышения конкурентоспособности необходимо оперативное распознавание конфиденциальных данных.
Цель — создание эффективного инструмента для автоматического распознавания и фильтрации текстов, содержащих коммерческую тайну, что обеспечит безопасное использование систем искусственного интеллекта и защиту конфиденциальной информации в электронных коммуникациях.
Методы. Создание модели для фильтрации коммерческой тайны» подразумевает разработку высокопроизводительной и быстрой искусственной нейронной сети, предназначенной для определения наличия коммерческой тайны в текстах. Для создания модели были использованы передовые методы машинного обучения для анализа текстовых данных, с целью классификации и количественной оценки содержания конфиденциальной информации.
Результаты. Предлагаемая технология построена на принципе машинного обучения и классификации текста путем преобразования этого текста в набор векторных числовых представлений при помощи модели BERT.
Для тестирования работоспособности архитектуры были обучены три модели, отличающиеся размерами своих датасетов. Отличием также является внедрение в датасет большой модели строк, похожих на запросы к языковым моделям, которые могут содержать коммерческую тайну.
В результате выполнения научно-исследовательской работы были поставлены и выполнены следующие задачи:
- Исследование рынка:
- проведение анализа текущего состояния рынка;
- изучение существующих решений и технологий;
- идентификация ключевых конкурентов.
- Определение потребностей и болевых точек клиента:
- интервьюирование функциональных менеджеров.
- Обоснование экономической целесообразности:
- оценка влияния существующих проблем качества на финансовые показатели компании (EBITDA);
- разработка экономической модели.
- Произведен выбор инструментов разработки.
- Выполнена разработка структуры системы обучения.
- Проведено научное обоснование разработанной архитектуры.
- Написаны инструменты создания данных.
- Проведен этап первоначального тестирования на больших данных.
Выводы. Предлагаемое решение актуально и обладает высоким потенциалом развития, применения инновационных интеллектуальных процессов.
В целом, рынок защиты коммерческой тайны в облачных моделях имеет значительный потенциал для роста и привлекает внимание крупных компаний, что создает благоприятные условия для развития проекта.
Таким образом, результаты исследования подтверждают возможность эффективного применения предлагаемого решения.
全文:
Обоснование. На сегодняшний день все большую актуальность набирает использование больших языковых моделей (преимущественно это модели от OpenAI и Google, в виде chatGpt и Gemini). В результате чего появляются такие риски, как отсутствие нормативных требований, этнические и социальные риски, а самое главное — это риск утечки конфиденциальной информации.
В условиях нарастающей важности информационной безопасности и соблюдения конфиденциальности данные проекты приобретают критическую значимость. Защита коммерческой тайны необходима для поддержания конкурентоспособности предприятий и предотвращения утечек информации, которые могут привести к значительным финансовым потерям и репутационному ущербу. Быстрое и точное распознавание таких данных является важной задачей для обеспечения качественной работы с информацией [1].
Актуальный на сегодняшний день вопрос почему бы не использовать локальные или отечественные языковые модели? Ответ прост, они не в полной мере проработаны, чтобы давать более точные ответы, а зачастую они галлюцинируют.
Актуальность выбранной темы заключается в том, что защита коммерческой тайны критически важна для предотвращения утечек, финансовых потерь, а также для исключения урона имиджу компании, а для повышения конкурентоспособности необходимо оперативное распознавание конфиденциальных данных.
Цель — создание эффективного инструмента для автоматического распознавания и фильтрации текстов, содержащих коммерческую тайну, что обеспечит безопасное использование систем искусственного интеллекта и защиту конфиденциальной информации в электронных коммуникациях.
Методы. Создание модели для фильтрации коммерческой тайны» подразумевает разработку высокопроизводительной и быстрой искусственной нейронной сети, предназначенной для определения наличия коммерческой тайны в текстах. Для создания модели были использованы передовые методы машинного обучения для анализа текстовых данных, с целью классификации и количественной оценки содержания конфиденциальной информации.
Результаты. Предлагаемая технология построена на принципе машинного обучения и классификации текста путем преобразования этого текста в набор векторных числовых представлений при помощи модели BERT.
Для тестирования работоспособности архитектуры были обучены три модели, отличающиеся размерами своих датасетов. Отличием также является внедрение в датасет большой модели строк, похожих на запросы к языковым моделям, которые могут содержать коммерческую тайну.
В результате выполнения научно-исследовательской работы были поставлены и выполнены следующие задачи:
- Исследование рынка:
- проведение анализа текущего состояния рынка;
- изучение существующих решений и технологий;
- идентификация ключевых конкурентов.
- Определение потребностей и болевых точек клиента:
- интервьюирование функциональных менеджеров.
- Обоснование экономической целесообразности:
- оценка влияния существующих проблем качества на финансовые показатели компании (EBITDA);
- разработка экономической модели.
- Произведен выбор инструментов разработки.
- Выполнена разработка структуры системы обучения.
- Проведено научное обоснование разработанной архитектуры.
- Написаны инструменты создания данных.
- Проведен этап первоначального тестирования на больших данных.
Выводы. Предлагаемое решение актуально и обладает высоким потенциалом развития, применения инновационных интеллектуальных процессов.
В целом, рынок защиты коммерческой тайны в облачных моделях имеет значительный потенциал для роста и привлекает внимание крупных компаний, что создает благоприятные условия для развития проекта.
Таким образом, результаты исследования подтверждают возможность эффективного применения предлагаемого решения.
作者简介
Самарский государственный технический университет
编辑信件的主要联系方式.
Email: acinit2@yandex.ru
Филиал, студент, группа ЭИЗ-21(с)
俄罗斯联邦, СызраньСамарский государственный технический университет
Email: sadova_daria@mail.ru
Филиал, студентка, группа ЭИ-22
俄罗斯联邦, СызраньСамарский государственный технический университет
Email: shipuchka.ad@yandex.ru
Филиал, студент, группа ЭИ-21
俄罗斯联邦, Сызрань参考
- ec-rs.ru [Электронный ресурс] Информационная безопасность: Полное руководство. Режим доступа: https://www.ec-rs.ru/blog/informacionnaja-bezopasnost/informatsionnaya-bezopasnost-polnoe-rukovodstvo/ Дата обращения: 01.07.2024.
补充文件



