Глоссарий
Альтернативная гипотеза - гипотеза о значимости различий.
Асимметрия - степень отклонения эмпирического распределения от симметричного распределения.
Вариация - рассеяние, разброс, неоднородность или изменчивость значений выборки.
Верхняя квартиль - это квантиль, соответствующая вероятности непревышения р=0.75
Выборка - отобранная тем или иным способом часть генеральной совокупности.
Генеральная совокупность - множество относительно однородных, но индивидуально различимых объектов (наблюдений, измерений, описаний), объединённых для совместного изучения.
Гипотеза - это предположение, которое вызывает сомнение.
Гистограмма - графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала группировки.
Диаграмма рассеивания - графическое отображение связи между двумя переменными.
Дисперсия - мера варьирования числовых значений признака вокруг его среднего значения.
Итерация - шаг выполнения операции расчета алгоритмов эталонного типа в кластерном анализе.
Квантиль - значение случайной величины Хр, соответствующее заданной вероятности непревышения р. В гидрометеорологической практике по аналогии с квантилями используются ординаты кривой обеспеченности Хр', соответствующие вероятности превышения р' (р=1-р').
Кластер - группа (скопление) элементов выборки, характеризуемых каким-либо общим свойством.
Ковариация (корреляция) - мера связи между двумя исследуемыми признаками.
Коэффициент вариации - относительный показатель изменчивости данных. Представляет собой среднее квадратическое отклонение, выраженное в процентах или в долях единицы от среднего значения.
Коэффициент корреляции - мера тесноты связи двух случайных величин. Рассчитывается по формуле
Лаг - это число, означающее сдвиг элементов ряда на несколько значений вперёд или назад относительно исходного ряда (шаг запаздывания).
Межквартильный размах - разность между верхней и нижней квартилью.
Медиана - это значение, которое делит упорядоченную выборку пополам, так что одна половина значений оказывается меньше медианы, а другая - больше.
Мода - это такое значение в выборке, которое встречается наиболее часто.
Непараметрический критерий - это статистический критерий, не включающий в формулу расчёта параметры распределения и основанный на оперировании частотами и рангами.
Непрерывная переменная - переменная, принимающая любое значение внутри некоторой области числовых значений.
Нижняя квартиль - это квантиль, соответствующая вероятности непревышения р= 0.25
Нулевая гипотеза - это гипотеза об отсутствии различий.
Обеспеченность - это вероятность превышения заданного значения случайной величины.
Объём выборки - количество элементов в выборке.
Ошибка I-го рода - ошибка, состоящая в отклонении нулевой гипотезы, в то время как она верна.
Ошибка II-го рода - ошибка, состоящая в принятии нулевой гипотезы, в то время как она неверна.
Параметрический критерий - это критерий, включающий в формулу расчёта параметры распределения, т. е. средние и дисперсии.
Переменная (признак) - изучаемая характеристика объекта исследования.
Размах - это разность максимального и минимального значений в выборке.
Ранг числа - это его место (номер позиции) в упорядоченной последовательности относительно других значений в списке.
Репрезентативная выборка - выборка, адекватно представляющая пропорции генеральной совокупности.
Сдвиг - это разность между первым и вторым измерением.
Среднее значение - значение, вокруг которого группируется большинство значений в выборке.
Среднее квадратическое отклонение - положительное значение квадратного корня из дисперсии.
Среднее отклонение - отклонение каждого значения от среднего значения в выборке.
Статистическая гипотеза - это предположение о свойстве генеральной совокупности, которое мы хотим проверить по имеющимся данным.
Статистическая закономерность - это форма проявления причинной связи, выражающаяся в последовательности, регулярности, повторяемости событий с достаточно высокой степенью вероятности, если причины, порождающие события, не изменяются или изменяются незначительно.
Статистическая совокупность - это множество единиц, обладающих массовостью, однородностью, определённой целостностью, взаимозависимостью состояний отдельных единиц и наличием вариации.
Статистический критерий - это решающее правило, обеспечивающее принятие истинной и отклонение ложной гипотезы с высокой вероятностью.
Уровень значимости - вероятность совершить ошибку первого рода, т.е. отвергнуть правильную гипотезу. В гидрологических расчётах обычно назначают уровень значимости равным 5%, или в долях единицы - 0,05.
Эксцесс - статистический показатель, характеризующий степень "островершинности" кривой распределения.
Эталоны - случайно выбранные объекты, которые будут служить эталонами, т.е. центрами кластеров.