Усов А.И., Омельянюк Г.Г., Бебешко Г.И., Любецкая И.П., Афанасьев И.Б. Методологические особенности валидации судебно-экспертных методик // Теория и практика судебной экспертизы. 2023. Т. 18. № 1. С. 76–96. https://doi.org/10.30764/1819-2785-2023-1-76-96
Введение
Процедура валидации методики является экспериментальным подтверждением выполнения конкретных требований к ее специфическому целевому использованию. Для применения методики в решении судебно-экспертных задач необходимо подтверждение, что полученные с ее помощью результаты правильны и достоверны. Оценка пригодности судебно-экспертных методик является обязательным условием в большинстве зарубежных судебно-экспертных учреждений.
Регламентом по валидации, который разработан в ФБУ РФЦСЭ при Минюсте России [1] и утвержден Советом министров юстиции государств-членов ЕврАзЭС (протокол № 29 от 23.05.2011), определены: общий объем валидационных исследований для разных типов судебно-экспертных методик, общая организация процедуры валидации, статистическая обработка полученных результатов и общие требования к отчету о валидации.
В РФЦСЭ накоплен определенный опыт в проведении валидации судебно-экспертных методик (СЭМ), что нашло отражение в актуализации отдельных разделов Руководства по качеству (РК РФЦСЭ). В нем представлены уточненные формы плана, отчета и протокола валидации методики. Для системы менеджмента разработаны и утверждены документированная процедура «Верификация методик измерения с использованием образцов с известными характеристиками», а также единые требования к структуре и оформлению СЭМ. Актуальными проблемами являются уточнение методологии, некоторых терминов и определений, совершенствование процедуры валидации СЭМ различного типа.
Целью настоящей статьи является обобщение опыта, выявление специфики и сложностей валидации СЭМ. Обсуждаются следующие методологические вопросы:
-
классификация судебно-экспертных методик;
-
параметры валидации для СЭМ измерения и тестирования;
-
особенности разработки валидационного эксперимента;
-
оценка параметров валидации СЭМ с применением математических методов;
-
формулирование выводов о пригодности СЭМ.
Выполним судебную экспертизу в короткие сроки
Классификация методик
Судебно-экспертная методика – это программа действий эксперта, основанная на системе научно обоснованных методов, приемов и средств, применяемых для изучения свойств объектов судебной экспертизы, и используемая для решения экспертной задачи – установления фактов, относящихся к предмету определенного рода, вида и подвида судебной экспертизы [2].
В метрологическом плане СЭМ можно разделить на два типа: судебно-экспертные методики измерения (СЭМИ) и судебно-экспертные методики тестирования (СЭМТ).
СЭМИ представляют собой документированные процедуры по количественному анализу объектов судебной экспертизы в целях решения экспертных задач. В методиках этого типа выполняют измерения контролируемого показателя, например, массы, концентрации, электропроводности [1, 2].
Измерения по способу получения результатов разделяют на два вида: прямые и косвенные. При прямых измерениях искомые значения физических величин получают непосредственно из опытных данных (размеры тел измерением линейкой, значения их масс – при помощи весов). При косвенных измеряют иные величины (аналитические сигналы), функционально связанные с определяемыми. Значение измеряемой величины находят путем вычисления по известной формуле или по градуировочной зависимости аналитического сигнала. Например, концентрацию некоего окрашенного компонента находят по градуировочной зависимости интенсивности его спектра поглощения от количества компонента.
При использовании градуировочной зависимости рабочий диапазон может быть шире интервала линейности градуировочной функции. Нижнее значение рабочего диапазона является пределом количественного определения, а верхнее – находится там, где единичное изменение показателя вызывает недостаточное изменение аналитического сигнала (рис. 1).
Рис. 1. Градуировочный график и линейный интервал измерений.
Результаты измерений могут быть как количественными, так и качественными, например качественное определение количества вещества вблизи предела обнаружения (limit of detection – LoD) или полуколичественное вблизи LoQ (limit of quantitation). В судебно-экспертной практике отдают предпочтение количественным измерениям, которые при использовании градуировочной функции выполняются на линейном участке с прямой пропорциональной зависимостью аналитического сигнала от значений контролируемого показателя. СЭМИ решают вопросы оценки величины или количества контролируемого показателя.
СЭМТ представляют собой документированные процедуры по тестированию качественных свойств, признаков объектов; эти методики, как правило относят к качественному анализу [1, 2].
Под качественным (неразмерным) свойством [3] понимают свойство тела или вещества, которое несет значимую информацию, но не может быть выражено размером. Оно может быть сформулировано словами (цвет, твердость и т. п.) или в единицах условных шкал (Мооса, интенсивности запаха воды, цветности по Сейболту и др.).
К качественным свойствам относятся также категориальные данные, в которых каждой единице наблюдения назначается номинальная категория на основе специфического качества. Эти данные могут быть и порядковыми, когда позволяют ранжировать (упорядочить) объекты с указанием, какие из них в большей или меньшей степени обладают изучаемым качеством, однако не позволяют установить, в какой мере (на сколько) больше или меньше. При обработке категориальных данных применяются только операции их упорядочения (например, по алфавиту, по толщине) или сравнения (например, равно/не равно). Применение арифметических операций к категориальным данным некорректно, даже если они представлены числами. Типичные примеры категориальных случайных величин: пол, национальность, виды брака продукции, «экстремистские» значения, законодательно запрещенные для публичного выражения, признаки оттиска печати, образующиеся при ее изготовлении.
Тестирование качественных свойств, предусматривающее изучение изменений объекта после испытательного воздействия, включает сравнение объекта (его отображения) либо с его частью, не подвергавшейся воздействию, либо с отображением объекта, полученным до испытательного воздействия. Критерии принятия решения об отсутствии/наличии изменений устанавливают до проведения испытаний, которые, по существу, являются простыми качественными тестами, способными дать только положительный или отрицательный ответ (бинарный отклик).
Судебно-экспертные методики тестирования часто применяются в судебно-экспертной практике, в частности для установления наличия/отсутствия конкретной совокупности признаков, например при установлении соответствия характеристик объекта экспертного исследования законодательным или техническим нормативам; определения критического значения контролируемого показателя (например, наличия/отсутствия наркотического вещества). СЭМТ используются для решения таких идентификационных задач, как определение общего источника происхождения (совпадения) объектов, изъятых с места преступления и с одежды подозреваемого.
Судебно-экспертные методики тестирования могут основываться на бинарном отклике, когда с помощью простых качественных тестов устанавливается наличие/ отсутствие признака или свойства или оценивается предельное значение измеряемого показателя и сравнивается с заранее определенным граничным значением (так называемые пороговые испытания). Кроме того, СЭМТ могут основываться на откликах, которые являются совокупностью значений непрерывных одномерных (например, коэффициент преломления стекла) или многомерных (например, элементный состав частиц стекла, групповой углеводородный состав автомобильных бензинов) измеряемых величин.
В СЭМТ могут включаться количественные измерения того или иного аналитического сигнала. Для дифференциации окрашенных волокон и решения вопроса о совпадении/несовпадении цвета образцов сравниваемых волокон, представленных на экспертизу, выполняют количественные измерения длин волн в характеристических точках спектров поглощения этих волокон.
По целевому использованию экспертные задачи, решаемые с помощью судебноэкспертных методик, принято разделять на идентификационные, классификационные и диагностические. Для разных экспертных задач могут одновременно применяться как методики измерения, так и тестирования.
Существует точка зрения, в соответствии с которой методы сравнения признаков разделяют на объективные и субъективные.
Объективными являются методы, состоящие из процедур, каждая из которых определена с достаточной стандартизированной и поддающейся количественной оценке детализацией. Такие процедуры могут выполнять либо автоматизированные системы, либо эксперты, которые на основе результатов проведенных исследований формулируют выводы об объекте исследования в полном объеме или частично.
Субъективные методы предусматривают использование суждений эксперта, в частности о выборе признаков или определении достаточности схожести признаков, чтобы их совокупность позволила осуществить идентификацию сравниваемых объектов.
В метрологическом плане процедура валидации по существу является оценкой воспроизводимости результатов измерения или тестирования. Предлагаемое деление судебно-экспертных методик на СЭМИ и СЭМТ носит общий характер и подходит для большинства методик.
Параметры валидации
Параметры (оцениваемые показатели) валидации для СЭМИ и СЭМТ различаются. На основании обобщения нормативных документов и ряда публикаций [3–7] для СЭМИ выделены следующие параметры:
-
метрологические характеристики или свойства методики: специфичность, линейность, чувствительность, диапазон определяемых величин, предел обнаружения, предел количественного определения;
-
показатели качества методики: прецизионность, правильность, точность результата анализа или неопределенность.
Экспериментальная оценка метрологических характеристик СЭМИ, как правило, не вызывает затруднений, более трудоемка процедура оценки показателей качества. Методические подходы к расчету основных параметров валидации судебно-экспертных методик подробно изложены в статье Г.И. Бебешко с соавторами [8].
Пример выполнения полного набора оценок перечисленных выше метрологических характеристик и показателей качества для конкретной судебно-экспертной методики, предназначенной для определения бенз(а)пирена при производстве экологопочвоведческих экспертиз, представлен в серии работ 2012 года [9–11].
Результаты оценки показателей качества опубликованы и для методики измерения цвета окрашенных волокон в экспертизе волокнистых материалов [12], а также методики определения кислотности (рН) и удельной электропроводности в экологопочвоведческих экспертизах [13].
Оценка показателей качества обязательна при валидации СЭМ, входящих в область аккредитации судебно-экспертных отделов, и представляется в отчетах по валидации.
Процедуры оценки параметров валидации для СЭМИ практически не отличаются от процедур оценки для большинства методик традиционного химического анализа. Наибольшую сложность представляют способы оценки точности измерений, для которой в настоящее время принята концепция неопределенности измерений. Ее принятие связано с решением важной практической задачи – обеспечения достоверности, сопоставимости и взаимного признания результатов, получаемых в разных лабораториях, в разное время и разными методами.
Неопределенность (uncertainty) измерения – параметр, связанный с результатом измерений и характеризующий разброс значений, которые с достаточным основанием могут быть приписаны измеряемой величине.
Судебный эксперт заинтересован в качестве результата, полученного в ходе экспертного исследования. С его точки зрения не имеет значения, является ли погрешность полученного результата случайной, систематической или содержит обе составляющие. Ориентация на качество результата анализа ставит на первый план характеристику суммарной погрешности или неопределенности.
Фундаментальным понятием классической теории измерений является погрешность (δ=Xi–µ): отклонение результата измерения Xi от математического ожидания или истинного значения измеряемой величины µ. Хотя истинное значение величины является гипотетическим (измерить его невозможно), а погрешность не может быть точно известна, эти понятия удобно использовать для статистического описания процесса измерения, поскольку возможно представить интервал значений, сосредоточенных вокруг истинной величины, и установить, что истинная величина попадает в указанный интервал. Расчет неопределенности измерения и сводится к определению границ этого интервала.
Если на практике при использовании понятия «погрешность» отсчет доверительного интервала ведется от условно истинного (опорного) значения, то для неопределенности – от среднего результата измерений величины X. Использование понятия «неопределенность» с этой точки зрения более логично: в определениях всех рассчитываемых параметров фигурируют только наблюдаемые величины. Различие понятий наглядно представлено на рисунке 2 [14].
Рис. 2. Демонстрация различий понятий «погрешность» и «неопределенность».
Неопределенность как параметр, характеризующий дисперсию измеряемой случайной величины, может не совпадать с погрешностью, определяющей не только дисперсию, но и смещение результатов измерения относительно истинного значения. Концепция погрешности направлена на получение максимально точного результата, а концепция неопределенности – на получение максимально действительного результата.
Количественная оценка неопределенности результата измерений для конкретных судебно-экспертных методик может быть выполнена на основе ряда рекомендаций.
При оценке неопределенности детально рассматриваются случайные и учитываются скрытые (не выявленные систематические) ошибки, составляется бюджет неопределенности. Все ее составляющие суммируют в виде квадратов стандартных отклонений как случайные величины. Суммарная стандартная неопределенность определяется как положительное значение корня квадратного из полной дисперсии, получаемой суммированием всех дисперсий составляющих неопределенности.
Основные источники неопределенности:
-
процедура отбора проб (образцов) или фиксация следов;
-
подготовка проб или образцов к измерениям;
-
аппаратура и оборудование;
-
окружающая среда;
-
калибровочные образцы;
-
персонал.
Существуют два подхода к процедуре оценки неопределенности: 1) оценивание неопределенности, возникающей от каждого отдельного источника погрешности и последующее суммирование отдельных составляющих с применением закона распределения неопределенностей; 2) непосредственное определение суммарного вклада в неопределенность от некоторых (или всех) источников с использованием данных об эффективности методики в целом (применяется в основном для СЭМИ).
Эксперту на экспертизу часто предоставляются зафиксированные ранее следы, уже отобранные образцы (пробы), поэтому процедура отбора проб не учитывается в общем бюджете неопределенности. Подготовка проб в большинстве случаев идентична подготовке к измерениям калибровочных образцов, и неопределенность процедуры может быть учтена при оценке неопределенности построения градуировочного графика. Этот вклад, как правило, незначителен.
Постановка эксперимента по оценке неопределенности пробоподготовки необходима при существенном различии пробоподготовки испытуемых и калибровочных образцов. Неопределенность, связанная с точностью измерительной аппаратуры и оборудования, аттестацией калибровочных образцов, поддержанием соответствующих условий окружающей среды, четкостью выполнения процедуры анализа, обуславливает эффективность методики в целом. Поэтому стандартную неопределенность результата измерения по реализуемой судебно-экспертной методике связывают в основном с установлением показателей качества – воспроизводимости и правильности методики.
Интервал, включающий большую часть распределения значений, которые с достаточным основанием могут быть приписаны измеряемой величине, называется расширенной неопределенностью. Ее значение находят умножением суммарной стандартной неопределенности на коэффициент охвата k . Считается, что с вероятностью 95 % истинное значение результата измерения располагается в пределах 2 (точнее 1,96) стандартных отклонений. Поэтому для Поэтому для большинства случаев принимают k=2 при доверительном уровне вероятности 95%. Однако это значение увеличивается при небольшом числе серий измерений (n6) и устанавливается равным двустороннему значению критерия Стьюдента для числа степеней свободы и требуемого доверительного уровня (обычно 95%).
Набор параметров валидации в каждом конкретном случае зависит от уровня стандартизации СЭМ. Для вновь разрабатываемой судебно-экспертной методики оценивают все перечисленные параметры. В случае внесения в стандартизованную методику изменений (например, касающихся области применения, условий проведения исследования, используемого оборудования, материалов и реактивов) валидация проводится в той части методики, которая была изменена. Соответственно, число оцениваемых параметров может быть уменьшено.
При использовании нестандартных методик исследования и невозможности проведения их валидации эксперт должен проинформировать заказчика и согласовать с ним применение методик.
Для СЭМТ детализированные способы выбора и оценки параметров валидации до настоящего времени не разработаны. Однако СЭМТ, в том числе основанные на бинарном отклике и широко применяемые в судебно-экспертной практике, также требуют подтверждения пригодности, соответствия назначению. Проблемы валидации, вопросы метрологии и терминологии методик, основанных на качественном анализе, включая СЭМ, активно обсуждаются в отечественных и зарубежных публикациях [15–21].
Для СЭМТ не оценивают линейность, рабочий диапазон и предел определения, а оценивают наиболее критические показатели: надежность (reliability) методики, компетентность эксперта и в случаях пороговых испытаний – предел обнаружения (LoD). При определении наличия/отсутствия конкретного вещества (например, токсиканта) необходимо определить минимальную концентрацию, которая может быть достоверно обнаружена. Под надежностью методики тестирования понимается воспроизводимость результатов теста, многократно повторяемого при различных условиях (разными исполнителями, на разном оборудовании, в разное время); экспериментальная оценка того, как часто методика тестирования приходит к ошибочному результату.
В настоящее время в качестве показателя (характеристики) надежности тестирования наиболее широко используется уровень ошибочных (false) результатов, в особенности доля ложных положительных (ЛП) и ложных отрицательных результатов (ЛО) в общем количестве тестирований [22, 23].
В практике применения СЭМТ эксперты часто вынуждены полагаться на личный опыт и профессиональную практику, поэтому в процессе валидации необходима экспериментальная демонстрация компетентности эксперта. Без подтверждения адекватной компетентности при реализации методики утверждение эксперта о том, что два образца похожи или даже неразличимы, с научной точки зрения не имеет доказательной ценности.
Компетентность эксперта, участвующего в валидационном эксперименте, может оцениваться разными способами:
-
путем подсчета доли ложных результатов тестирования, полученных экспертом по используемой методике;
-
путем подсчета доли правильных результатов, полученных каждым участникомэкспертом при тестировании одних и тех же образцов;
-
сравнением результатов эксперта с результатами анализа, полученными другим независимым экспертом (в другой лаборатории);
-
по уровню ложных результатов в слепых тестированиях образцов, приготовленных альтернативным способом.
Валидационный эксперимент
Эксперимент по оценке параметров валидации СЭМ всегда является компромиссом между необходимыми затратами и техническими возможностями. Он должен сочетаться с требованиями заказчика (при их наличии), учитывать риски ложных результатов, основываться на наличии информации и знаниях об объекте исследования.
Эксперимент по оценке показателей качества СЭМИ в основном заключается в определении контролируемых показателей в стандартных образцах и последующем сравнении полученных результатов с аттестованными значениями. Альтернатива такой оценки – использование метода стандартных добавок и разбавлений. Валидационный эксперимент может также ассоциироваться с участием в межлабораторных профессиональных тестированиях [24]. Положительная оценка полученных лабораторией результатов в рамках выполнения задания межлабораторного профессионального тестирования является подтверждением их достоверности и пригодности методики для цели использования.
Измерения с применением аттестованных стандартных образцов, по существу, представляют собой калибровку в целом методики измерений относительно прослеживаемого эталона [25]. При отсутствии стандартных образцов выполняют сравнение результатов анализа в контрольных образцах (чистых веществах, образцах из натурных лабораторных коллекций, специально изготовленных для оценивания образцах) с установленными (опорными) значениями показателей в них.
Использование в эксперименте образцов с установленными опорными значениями показано в статье о валидации методики определения рН и удельной электропроводности в объектах почвенно-геологического происхождения [13], а использования стандартных добавок – в работе по валидации методики «Определение концентрации бенз(а)пирена в объектах почвенно-геологического происхождения методом ВЭЖХ с флуориметрическим детектированием» [9].
Необходимый объем экспериментальных исследований зависит от области применения экспертной методики, наличия доступной информации об исследуемом объекте, а также от наличия в достаточном количестве соответствующих стандартных или контрольных образцов для оценивания.
Главным требованием, предъявляемым к эксперименту по оценке качества СЭМИ, является получение представительной выборки измеряемых значений контролируемого показателя, поэтому необходимо, чтобы в нем участвовало достаточное количество исполнителей, и он должен основываться на достаточно больших коллекциях репрезентативных образцов, отражающих интервал определения контролируемых показателей.
Порядок проведения валидационного эксперимента приводится в разрабатываемом экспертным подразделением плане. В нем определяется: количество исполнителей/лабораторий, используемых приборов, образцов, количество дней, отводимое на проведение исследования, очередность исследования образцов. Для наглядности порядок проведения эксперимента изображают в виде схемы [8, 12, 13].
Валидацию проводят с применением оборудования и средств измерения, прошедших поверку, при строгом соблюдении требований, указанных в технической документации.
Валидационный эксперимент по оценке надежности СЭМТ заключается в установлении доли или вероятности ложных ошибочных результатов тестирования. Возможны два способа оценки вероятности ложного отклика [23, 24]:
1) на основании наблюдения ложных результатов в серии повторяющихся тестов в одних и тех же образцах с известными контролируемыми свойствами/признаками и расчете доли ложных результатов в общем числе тестирований;
2) на основании прогноза уникальности (вероятности встречаемости) конкретного свойства/признака из известных характеристик исследуемого образца (необходимо наличие сравнительной базы данных). Чем реже признак встречается (низкое значение вероятности) у других однородных объектов, тем выше его идентификационная значимость.
При валидации СЭМТ преимущественно используют первый способ. Ограничение второго способа связано либо с отсутствием сравнительных баз данных либо недостаточной представительностью/репрезентативностью признаков исследуемого образца относительно тестируемой совокупности.
Валидационный эксперимент для судебно-экспертных методик тестирования также выполняют с использованием достаточного количества стандартных (или контрольных) образцов и участвующих экспертов.
Как правило, стандартные образцы для СЭМТ отсутствуют, поэтому используют контрольные образцы с регламентированными тестируемыми признаками. К таким образцам относят:
-
реальный образец объекта в одном из возможных состояний (образец дефекта, набор цветных стекол, воспроизводящий шкалу цветности, и др.);
-
образец, измененный в процессе консервации, но сохраняющий качественное свойство (гербарий, биологический препарат);
-
отображение объекта (фотография, рисунок, модель, спектр, и др.).
Контрольные образцы должны быть схожими по характеру, составу, свойствам с теми, которые традиционно исследуются в судебно-экспертных лабораториях. Они должны охватывать все этапы аналитического процесса и все типы матриц, включая наихудший вариант.
Комплекты контрольных образцов могут сводиться в коллекции, атласы, наборы и т. п. При этом лаборатория должна располагать описанием свойств и признаков каждого образца. Например, использованный при валидации методики диагностирования микровключений в почвах и грунтах [26] иллюстрированный атлас [27] содержит также ключ для диагностики различных видов микровключений. Ключ атласа – это последовательность ссылок, указывающая очередность выявления диагностических признаков, единая система отнесения материала/вещества микровключений к определенному виду/типу непочвенной природы происхождения.
Для СЭМТ, позволяющих решать классификационные задачи установления наличия/ отсутствия компонента, например конкретного токсиканта, используют два вида контрольных образцов: пробы с содержанием данного токсиканта выше предельно допустимой концентрации и холостые пробы, заведомо не содержащие токсиканта. При оценке надежности методики учитывают ошибки, допущенные исполнителями как в пробах, содержащих токсикант, так и в холостых.
Объем экспериментальных исследований (количество лабораторий/операторов, образцов и повторений анализа), сообщаемый в опубликованных руководствах [17], различается. Для судебно-экспертных методик, основанных на качественном анализе, общее число тестирований должно быть значительно больше, чем число измерений для методик, основанных на количественном анализе.
Валидационные эксперименты для любой СЭМ должны проводиться таким образом, чтобы ни эксперт, ни лица, с которыми он взаимодействует, не имели информации о верном ответе. Однако результаты валидации (данные и выводы), программное обеспечение должны быть доступны другим экспертам.
Оценка параметров валидации с применением математических методов
1. Оценка параметров валидации СЭМИ
Для методик СЭМИ с учетом конкретной схемы эксперимента процедура выполнения измерений включает: подготовку к измерениям технических средств и, при необходимости, проб исследуемых образцов; проведение экспертами количественных измерений контролируемых показателей; представление экспериментальных данных в виде сводных таблиц результатов измерений. Формы таблиц допускается заимствовать из руководства.
На основании данных эксперт выполняет расчеты параметров валидации, используя статистические методы обработки результатов. Схема и особенности обработки результатов измерений для оценки качества СЭМИ, последовательность расчетов, учет однородности дисперсий результатов, полученных в условиях повторяемости, исключение грубых ошибок или промахов, а также формулы для расчетов воспроизводимости, правильности методики и неопределенности результатов измерений показаны ранее в статье «Методические подходы к расчету основных параметров валидации судебно-экспертных методик» [8].
2. Оценка параметров валидации СЭМТ
Для оценки параметров валидации методик качественного анализа СЭМТ так же, как и для СЭМИ, проводят подготовку технических средств и, при необходимости, подготовку проб исследуемых образцов; выполняют качественное тестирование контролируемых показателей и представляют экспериментальные данные в виде сводных таблиц результатов тестирования. Поскольку формы таблиц разрабатывают сами лаборатории, они могут различаться. При этом они должны наглядно и четко представлять как индивидуальные, так и обобщенные показатели.
Типичная форма неопределенности или надежности для СЭМТ носит вероятностный характер и не может быть выражена в виде числового интервала вокруг прогнозируемого значения. Обычно ее выражают как вероятность или частоту получения ложного результата тестирования. Низкий уровень ложных результатов свидетельствует о низкой неопределенности или высокой надежности методики и достоверности результатов тестирования.
В литературе представлены различные способы оценки неопределенности качественных методик химического анализа (таблицы случайных обстоятельств; теорема Байеса; статистические интервалы; кривые эффективности). В основном они относятся к пороговым испытаниям [15–19], когда оценку неопределенности связывают с превышением критического порога значений контролируемого показателя.
В настоящей статье рассматриваются судебно-экспертные методики тестирования, основанные на бинарном отклике. Стандартными величинами, характеризующими надежность качественной методики, основанной на бинарном отклике, являются показатели или вероятности ложных результатов тестирования [20] (табл. 1).
Таблица 1. Формулы для расчета вероятностей (показателей) ложных и правильных результатов тестирования.
Доступны также четыре показателя эффективности (диагностические точности) [22]: Ч – чувствительность (sensitivity), С – специфичность (specificity), ПрП – прогностичность положительного результата (positive predictive value) и ПрО – прогностичность отрицательного результата (negative predictive value). Эти показатели относятся не к ложным, а к правильным результатам тестирования. При этом смысловые значения показателей «чувствительность» и «специфичность», в основном, не совпадают с таковыми в количественном химическом анализе.
Показатели ложных и правильных результатов связаны попарно, являются взаимодополняющими событиями, следовательно:
ПЛО + ППП x (Ч) = 100 %,
ПЛО + ППП x (Ч) = 100 %,
В статье использованы показатели чувствительности и специфичности для расчета отношения правдоподобия. Ниже представлены примеры вероятностной оценки надежности конкретных судебно-экспертных методик тестирования.
Пример 1. В валидационном эксперименте СЭМТ «Микроскопическое исследование текстильных волокон» [8, 28] устанавливали наличие/отсутствие десяти разнообразных внешних признаков в каждом из десяти контрольных образцов окрашенных волокон. В совокупности каждый из трех экспертов (А, Б, В) тестировал по 100 разнообразных признаков, из которых 39 признаков присутствовали в образцах, 61 признак отсутствовал.
В зафиксированных экспертами результатах тестирования правильный положительный результат (ПП) означал, что наличие признака было установлено верно, а ложный отрицательный результат (ЛО) – ложное отсутствие признака (признак не выявлен при его наличии). Правильный отрицательный результат (ПО) означал, что верно установлено отсутствие признака, а ложный положительный результат (ЛП) – ложное наличие признака (признак выявлен при его отсутствии).
Итоги эксперимента представлялись в сводной таблице (табл. 2), так называемой таблице бинарной классификации [22]. Суммирование по ее столбцам и строкам приводит к одному общему числу тестирований.
Таблица 2. Результаты валидации СЭМТ «Микроскопическое исследование текстильных волокон».
Расчеты по вышеприведенным формулам показали, что найденные вероятности ложных результатов по совокупности ста признаков невелики (табл. 2): у всех экспертов не превышают 1,7 %; у каждого из экспертов не превышают 2,6 %. Полученные результаты свидетельствуют о высокой надежности СЭМТ и достаточной компетентности судебных экспертов для ее реализации.
Оценка пригодности судебно-экспертной методики возможна также на основе расчета отношения правдоподобия (likelihood ratio – LR). Отношение правдоподобия – это не нахождение шансов пары конкурирующих предположений, а поиск меры поддержки истинности одного предположения против другого; LR указывает во сколько раз более вероятно доказательство, если истинно одно из конкурирующих предположений.
Рассмотрим следующее событие – совпадение при тестировании выявленных экспертами признаков окрашенных волокон с регламентированными признаками. Для оценки истинности выявленной совокупности признаков выдвигаются два противоположных предположения: выявленная совокупность внешних признаков образцов волокон (1) совпадает (правильные результаты тестирования) и (2) не совпадает с совокупностью регламентированных признаков в исследуемых волокнах (ложные результаты тестирования).
Пусть событие А означает наличие признаков, событие В – отсутствие признаков, событие АВ – совокупное наличие одних признаков и отсутствие других. Вероятность правильного результата события АВ равна произведению вероятностей ППП и ППО, так как события А и В происходят одновременно: 1 х 0,983 = 0,983. Вероятность ложного результата события АВ равна сумме вероятностей ПЛО и ПЛП, так как ложный результат события АВ будет тогда, когда хотя бы одно из событий (А или В) является ложным: 0,017 + 0 = 0,017.
По теореме Байеса LR равняется отношению шансов апостериорных данных события к шансам априорных данных. В рассматриваемом случае априорными данными является совокупность внешних признаков волокон известная до тестирования. Тестирование означает преобразование в результате выполнения анализа априорных данных в апостериорные. До тестирования вероятности правильных и ложных результатов равны, и априорные шансы равны единице. Апостериорные шансы равны отношению вероятностей полученных правильных и ложных результатов. Поэтому LR = [1 – (ПЛП + ПЛО)] / (ПЛП+ПЛО). Следовательно, LRАВ = (1–0,017) / 0,017 = 57,8.
Таким образом, вероятность правильного результата тестирования примерно в 60 раз (существенно больше единицы) выше вероятности ложного результата, что подтверждает объективность выявленной экспертами совокупности признаков (совпадение с регламентированными признаками) и свидетельствует о пригодности методики для цели использования.
Пример 2. Валидация СЭМТ «Обнаружение конденсированных следов продуктов выстрела, содержащих соединения тяжелых металлов, на различных объектах методом сканирующей электронной микроскопии и рентгеноспектрального микроанализа» [23] осуществлялась путем межлабораторного сравнения результатов исследования, полученных двумя экспертами разных отделов (эксперт А – баллист, эксперт Б – сотрудник лаборатории инструментальных методов исследования) в разное время на одном приборе.
Компетентность экспертов оценивали по результатам слепого испытания, которое заключалось в установлении наличия и количества частиц, классифицированных как продукты выстрела (ПВ), в контрольных пробах, отобранных в баллистической лаборатории в ходе натурного эксперимента на столик микроскопа: с рук стрелявшего; с рук нестрелявшего человека; без наслоений микрочастиц (чистый столик). В результате испытания оба эксперта обнаружили частицы продуктов выстрела только на пробах, отобранных с руки человека, державшего оружие в момент выстрела. При этом классификация выявленных частиц ПВ у обоих экспертов практически совпадает.
Надежность методики оценивали путем сравнения результатов тестирования стандартного образца ENFSI GSR PT 2018 A-0307 с аттестованными в нем категориями характерных частиц ПВ.
Стандартный образец ENFSI GSR PT 2018 A-03-07 имитирует конденсированные следы ПВ и представляет собой пластину стеклоуглерода размером 8 х 8 мм с нанесенным на ее поверхность шаблоном из 165 частиц разного размера, произвольно расположенных. Частицы нанесены методом полупроводниковой литографии и представляют собой чередующиеся эпитаксиальные слои соединений сурьмы, бария и свинца, эмулирующие характерные частицы продуктов выстрела неоржавляющего состава.
В паспорте стандартного образца указаны данные о количестве характерных частиц разной категории и представлено их расположение на пластине в виде диаграммы (рис. 3). На диаграмме частицы разной категории и размера обозначены разноцветными фигурами (круг, квадрат, треугольник, ромб).
Рис. 3. Диаграмма размещения характерных частиц ПВ на пластине (шкала в мм) по паспорту.
В общее число характерных частиц разного размера входят 4 угловые частицы круглой формы, ограничивающие поле счета, и 2 частицы-выбросы некруглой формы. Поскольку стандартный образец помещается в камеру наблюдений микроскопа случайным образом (без совпадения по ориентации и размещению с положением координат паспортных данных) и результаты протокола программы рентгеноспектрального микроанализа представляются в координатах столика микроскопа, необходимо произвести преобразование координат результатов исследования таким образом, чтобы они соответствовали принятым координатам паспорта стандартного образца. Это достигается соответствующим совмещением частиц-выбросов с вертикальной и горизонтальной осями координат.
При тестировании стандартного образца каждым экспертом выполнено по 176 определений частиц ПВ. Выявлены разные по размеру и элементному составу частицы: характерные, соответствующие, сопутствующие и подозрительные. Путем визуальной оценки графического изображения на диаграммах характерных частиц разной категории был проведен анализ совпадения количества и размещения их на пластине в сравнении с паспортными данными.
На диаграммах экспертов (например, эксперта А на рис. 4) положения частиц стандартного образца были обозначены полыми разноцветными фигурами (круг, квадрат, треугольник, ромб), а результаты тестирования – в виде точек внутри фигур [23].
Рис. 4. Диаграмма совмещения характерных частиц, обнаруженных экспертом А, с паспортными данными образца.
При последовательном сравнении совпадений выявлены случаи пропуска частиц – отсутствие точки в соответствующей фигуре (ложноотрицательный результат), а анализ координат расположения обнаруженных частиц – случаи двойного счета частиц – две точки в соответствующей фигуре (ложноположительный результат). Результаты подсчета экспертами числа частиц разной категории представлены в таблицах 3–5.
Таблица 3. Результаты подсчета числа частиц разной категории экспертом А.
Таблица 4. Результаты подсчета числа частиц разной категории экспертом Б.
Таблица 5. Обобщенные результаты, полученные в двух лабораториях по тестированию стандартного образца ENFSI GSR PT 2018 A-03-07.
Обозначения результатов в таблицах: ПП – правильный положительный (обнаружена частица данной категории при ее наличии), ЛО – ложноотрицательный (частица не выявлена при ее наличии), ЛП – ложноположительный (частица обнаружена при ее отсутствии), n – число результатов.
Для расчета вероятности ложных результатов ПЛП и ПЛО использовали формулы, приведенные в таблице 1, а для оценки вероятности правильного положительного результата учитывали два вида ошибок, рассчитанных по формуле:
ППП = 100 nПП / (nПП + nЛО + nЛП), %.
Низкая доля ошибочных результатов тестирования в лабораториях (суммарно 2,9 %) подтверждает воспроизводимость результатов и свидетельствует о надежности методики.
В примере 2 также возможно рассчитать LR как оценку истинности выявленной совокупности частиц. Выдвигаются два противоположных предположения: (1) выявленная совокупность характерных частиц ПВ совпадает (правильные результаты тестирования) и (2) не совпадает (ложные результаты тестирования) с паспортными данными. В таблице 4 показано, что значение LR=33,48 (на порядок больше единицы), то есть вероятность правильного результата тестирования примерно в 30 раз выше вероятности ложного результата, что свидетельствует об объективности совпадения и о пригодности методики для цели применения.
При повторных экспериментах валидации значения LR, как для любой случайной величины, будут варьировать. Однако в случаях подтверждения пригодности методики должно соблюдаться неравенство LR>1. Чем больше величина LR, тем больше в нашем случае поддержка события совпадения признаков. При LR=1 равновероятны выводы о соответствии/несоответствии, при LR<1 более вероятно подтверждение несоответствия.
В примерах 1 и 2 рассмотрены подходы к оценке надежности СЭМТ, основанных на бинарном отклике. Для методик тестирования, основанных на откликах, являющихся совокупностью значений непрерывных измеряемых величин, оценка надежности значительно сложнее. Однако она также может опираться на значения отношений правдоподобия, которые больше единицы. Как было показано ранее [23, 24, 29], значения LR могут быть рассчитаны (при использовании соответствующих компьютерных программ) исходя из функций плотности вероятности измеряемых показателей.
Интерпретация результатов валидации, формулирование выводов
Судебно-экспертное исследование обычно включает три этапа: измерение или выявление (обнаружение) контролируемых показателей, сравнение их в различных объектах, представленных в распоряжение эксперта, или сопоставление с существующими требованиями к объекту и интерпретация результатов в плане решения вопросов, поставленных перед экспертом. Описание хода и результатов исследования, проведенного с применением СЭМ на объектах экспертизы, включается в исследовательскую часть заключения эксперта. Поэтому резонно применять методики, пригодность которых для решения конкретных экспертных задач подтверждена путем валидации.
Метрологические характеристики и показатели качества методики (параметры валидации), полученные в ходе валидации СЭМИ, должны соответствовать требованиям заказчика, если они предъявлены, установленным нормативным требованиям, а также отвечать цели применения методики.
При валидации методик количественного анализа соответствие нормативным требованиям с уверенностью принимается тогда, когда интервал расширенной неопределенности вокруг результата измерений не выходит за пределы (или предел) поля допуска. Сравнение с допускаемыми пределами успешно выполняется при применении стандартизованных методик, представленных в качестве международных, национальных, отраслевых стандартов, но для СЭМИ, разработанных в лабораториях, как правило, допуски отсутствуют.
В процессе разработки СЭМИ и ее обязательной валидации устанавливаются воспроизводимость и неопределенность результатов измерений. Значения расширенной неопределенности могут служить границами, в которых погрешность измерений находится с заданной, например 95%-ной, вероятностью.
При отсутствии допусков СЭМИ считается пригодной для решения судебно-экспертных задач со значениями расширенной неопределенности результатов измерений контролируемого показателя, не превышающими значений, установленных при валидации. При сравнительном анализе образцы считаются совпадающими, если смещение результатов количественных измерений контролируемых показателей в них также не превышает неопределенности, установленной при валидации.
При сопоставлении результатов измерений в валидационных образцах с допустимыми значениями возможны разные ситуации, приводящие к выводам о соответствии, несоответствии и невозможности принятия решения о соответствии. В связи с этим результаты валидации могут быть как положительными, так и отрицательными. В соответствии с утвержденной инструкцией «Разработка, актуализация судебно-экспертных методик в ФБУ РФЦСЭ при Минюсте России», допускается использование методик только с положительными результатами валидации.
Показатели качества, в том числе значения неопределенности СЭМИ, не являются постоянными величинами. В процессе практического использования методик возможно уточнение значения неопределенности, принимая в расчет результаты повторной валидации, а также результаты контроля достоверности анализа.
В ходе валидации СЭМТ на основе выявленных экспертами контролируемых свойств или признаков в представленных для анализа образцах устанавливаются совпадения или различия их с регламентированными признаками. Выявленные признаки совпадения должны образовывать совокупность, индивидуализирующую объект. Низкая вероятностная доля ложноположительных и ложноотрицательных результатов тестирования, а также экспериментально подтвержденная компетентность эксперта при реализации методики являются показателями пригодности методики для цели использования.
Результаты валидации судебно-экспертных методик тестирования могут быть отрицательными, например, при высокой доле (≥50 %) ложных результатов или при неудовлетворительной компетентности эксперта. Однако для использования рекомендуются СЭМТ только с положительными результатами валидации.
Надежность или неопределенность СЭМТ, характеризуемую значением вероятности ложных результатов, также как и для СЭМИ, возможно уточнять в процессе практического применения.
Заключение
Разнообразие и специфические особенности объектов судебной экспертизы (малый объем и количество, многообразие матричного состава исследуемой пробы, неустойчивость при хранении и т. п.) способствуют появлению множества судебно-экспертных методик и приводят к методологическим особенностям процедуры валидации. В действительности валидация СЭМИ или СЭМТ заключается в демонстрации воспроизводимости результатов измерений или тестирований. Наиболее сложные ситуации возникают при валидации СЭМТ.
В работе показана надежность (неопределенность) как устойчивая воспроизводимость результатов тестирования контролируемых показателей в сочетании с фиксированной компетентностью экспертов при реализации методики. Представлена численная характеристика надежности двух конкретных судебно-экспертных методик тестирования с помощью оценки частоты ложных результатов и расчета отношений правдоподобия.