value of information что это
value of information
1 value of information
2 value of information
3 value of information
4 value of information
5 value of information
6 value of perfect information
7 VOI
См. также в других словарях:
Value of information — (VoI) in decision analysis is the amount a decision maker would be willing to pay for information prior to making a decision. imilar termsVoI is sometimes distinguished into value of perfect information, also called value of clairvoyance (VoC),… … Wikipedia
Information security — Components: or qualities, i.e., Confidentiality, Integrity and Availability (CIA). Information Systems are decomposed in three main portions, hardware, software and communications with the purpose to identify and apply information security… … Wikipedia
Information economics — or the economics of information is a branch of microeconomic theory that studies how information affects an economy and economic decisions. Information has special characteristics. It is easy to create but hard to trust. It is easy to spread but… … Wikipedia
Information bias — is a type of cognitive bias. Information bias occurs due to people’s curiosity and confusion of goals when trying to choose a course of action. This notion is different from the objective notion of information bias in epidemiology, etc.: there… … Wikipedia
Information Lifecycle Management — NOTOC Information Lifecycle Management refers to a wide ranging set of strategies for administering storage systems on computing devices. Specifically, four categories of storage strategies may be considered under the auspices of ILM.PolicyILM… … Wikipedia
Value (ethics) — For other uses, see Value (disambiguation). In ethics, value is a property of objects, including physical objects as well as abstract objects (e.g. actions), representing their degree of importance. Ethic value denotes something s degree of… … Wikipedia
Information Lifecycle Management — Informationslebenszyklusmanagement (ILM, englisch information lifecycle management) umfasst Strategien, Methoden und Anwendungen um Information automatisiert entsprechend ihrem Wert und ihrer Nutzung optimal auf dem jeweils kostengünstigsten… … Deutsch Wikipedia
Value of control — The value of control is a quantitiative measure of the value of controlling the outcome of an uncertainty variable. Decision analysis provides a means for calculating the value of both perfect and imperfect control. The former value, informally… … Wikipedia
information foraging — (in.fuhr.may.shuhn FOR.uh.jing) n. Searching for information, especially by using strategies analogous to the food foraging techniques employed by animals. information forager n. information forage v. Example Citation: Information foraging theory … New words
Weight of Evidence (WOE) and Information Value (IV) Explained
What is Weight of Evidence (WOE)?
The weight of evidence tells the predictive power of an independent variable in relation to the dependent variable. Since it evolved from credit scoring world, it is generally described as a measure of the separation of good and bad customers. «Bad Customers» refers to the customers who defaulted on a loan. and «Good Customers» refers to the customers who paid back loan.
WOE Calculation |
WOE = In(% of non-events ➗ % of events)
Steps of Calculating WOE
Terminologies related to WOE
Create 10/20 bins/groups for a continuous independent variable and then calculates WOE and IV of the variable
Combine adjacent categories with similar WOE scores
Usage of WOE
Weight of Evidence (WOE) helps to transform a continuous independent variable into a set of groups or bins based on similarity of dependent variable distribution i.e. number of events and non-events.
For continuous independent variables : First, create bins (categories / groups) for a continuous independent variable and then combine categories with similar WOE values and replace categories with WOE values. Use WOE values rather than input values in your model. For categorical independent variables : Combine categories with similar WOE and then create new categories of an independent variable with continuous WOE values. In other words, use WOE values rather than raw categories in your model. The transformed variable will be a continuous variable with WOE values. It is same as any continuous variable.
Why combine categories with similar WOE?
If a particular bin contains no event or non-event, you can use the formula below to ignore missing WOE. We are adding 0.5 to the number of events and non-events in a group.
AdjustedWOE = ln (((Number of non-events in a group + 0.5) / Number of non-events)) / ((Number of events in a group + 0.5) / Number of events))
How to check correct binning with WOE
Benefits of WOE
What is Information Value (IV)?
Rules related to Information Value
Information Value | Variable Predictiveness |
---|---|
Less than 0.02 | Not useful for prediction |
0.02 to 0.1 | Weak predictive Power |
0.1 to 0.3 | Medium predictive Power |
0.3 to 0.5 | Strong predictive Power |
>0.5 | Suspicious Predictive Power |
According to Siddiqi (2006), by convention the values of the IV statistic in credit scoring can be interpreted as follows.
Weight of Evidence and Information Value in Python, SAS and R
Step 1 : Install and Load Package First you need to install ‘Information’ package and later you need to load the package in R.
Why should WOE be monotonic? For example, when there is U/inverse U relationship between independent variable and outcome.
It is because logistic regression assumes there must be a linear relationship between logit function and independent variable.
in health insurance. incidence (event or disease) rate is higher in infant/toddler and then older people. People with age in the middle has the lowest incidence rate. How could this be a monotonic WOE? But this can be modeled by logistic regression, with age as categories.
Groupings doesnt mean categorical data but continuous data. That is the variables that are directly used as a feature in logistic regression. Am sure age is not directly used as a variable in that case. We categorize age into groups to solve that problem.
Can I ask for your help? I am a first time SPSS user. I need to calculate WOE and IV for more than thousands of variables in a SPSS dataset. Can you tell me how to write a SPSS macro to calculate WOE and IV automatically and output the result?
I have been struggling for a month how to do it already and really need your help.
Dont know for SPSS, but in R you can use *Information* package and *smbinning* package.
СОДЕРЖАНИЕ
Похожие термины
Определения
Простой
Формальный
Приведенное выше определение показывает, что ценность несовершенной информации любой неопределенности всегда может быть сформулирована как ценность точной информации, то есть VoC, другой неопределенности, следовательно, далее будет использоваться только термин VoC.
Стандарт
Рассмотрим случаи, когда лицо, принимающее решение, может знать результат некоторых дополнительных неопределенностей раньше в его / ее ситуации принятия решения, т. Е. Некоторые u i перемещаются, чтобы появиться раньше в упорядочивании. В таком случае VoC определяется как самая высокая цена, которую лицо, принимающее решение, готово заплатить за все эти действия.
Обобщенный
Затем стандарт далее обобщается в рамках анализа командных решений, где обычно происходит неполный обмен информацией между членами команды в одной и той же ситуации принятия решения. В таком случае то, что сделано или известно, может быть неизвестно в последующих решениях, принадлежащих разным членам команды, т. Е. Может не существовать линейного упорядочения решений и неопределенностей, удовлетворяющих предположению об идеальном воспоминании. Таким образом, VoC отражает ценность возможности знать «не только дополнительные неопределенности, но и дополнительные решения, уже принятые другими членами команды», прежде чем принимать некоторые другие решения в ситуации командного решения.
Характеристики
Есть четыре чрезвычайно важных характеристики VoI, которые всегда актуальны для любой ситуации принятия решения:
Вычисление
VoC выводится строго в соответствии с его определением как денежная сумма, которая достаточно велика, чтобы просто компенсировать дополнительную выгоду от получения дополнительной информации. Другими словами; VoC вычисляется итеративно до тех пор, пока
«значение ситуации принятия решения с точной информацией при оплате VoC» = «значение текущей ситуации принятия решения».
Особым случаем является тот случай, когда лицо, принимающее решение, нейтрально к риску, когда VoC можно просто вычислить как
Примеры
Голосовая связь часто иллюстрируется на примере оплаты консультанта в рамках бизнес-операции, который может быть либо идеальным ( ожидаемая ценность совершенной информации ), либо несовершенным (ожидаемая ценность несовершенной информации).
Затем мы решаем значения c, при которых F Смотрите также
Petroleum Engineers
Вы здесь
Value of Information (VOI)
Уважаемые форумчане, в теме Экономическое обоснование проведения ГДИ https://www.petroleumengineers.ru/node/8197 заинтеросовался следующими постами:
volvlad, а что такое VOI? Поиск находит «всероссийское общество инвалидов».
В общем одно могу сказать это проще понять на картинке, чем пытаться объяснить словами)
C точки зрения идущей разработки более-менее понятно, как можно подвязать все цифры, показать приросты добычи и так далее.
В хвэшном мануале по экономике нашел маленькую главку про VOI, где есть такое дерево решений:
Возникает вопрос, откуда здесь, да и вообще, берутся эти коэффициенты/вероятности при подобных оценках? Статистика, субъективный взгялд эксперта?
Как, используя VOI, прийти к чему-либо осязаемому и адекватному в данной ситуации?
Если у кого-нибудь имеется опыт решения подобных задач, буду очень признателен.
Контекст
Давайте, попробуем решить эту проблему без использования дерева. На стадии ГРР без ГДИ мы не обойдемся, это однозначно. Касательно использования спецметодов, то расчет здесь простой:
Касательно российской геофизики:
Расчет для буржуйской геофизики:
Резюмируя, можно отметить, что буржуйская геофизика оказывается чуть дороже, а если не заказывать спец. методы, то оказывается еще и дешевле российской геофизики. Но не стоит забывать про возможность отказа приборов (брак/перезапись каротажа), что приводит к удорожанию каротажа из-за задалживания скважины. Вероятность отказа у российских приборов намного выше, чем у зарубежных, в итоге мы либо теряем деньги из-за перезаписи либо вообще остаемся без геологической информации.
Дата публикации Sep 9, 2019
Это не так, как было.
Внезапно слушать о моделировании оттока стало интереснее!
Но какого чёрта это анализ релевантности атрибутов?
Хороший вопрос. Я процитирую параграф из официальной учебной книги:
На этапе анализа релевантности атрибутов ставится задача распознавать атрибуты (характеристики), оказывающие наибольшее влияние на отток. Атрибуты, которые показывают наибольшую степень сегрегации по отношению к оттоку (отток = «Да» или «Нет») по анализу релевантности атрибутов, будут выбраны в качестве лучших кандидатов для построения прогнозирующей модели оттока. [1]
Почему-то английский в этой книге ужасен. Я не говорю, что у меня все идеально, но слушать эту аудиокнигу было болезненным процессом.
Тем не менее, я надеюсь, что вы понимаете суть этого.
Анализ релевантности атрибутов ни в коем случае не используется только для разработки прогнозной модели оттока, его можно использовать для каждой задачи классификации. Он основан на двух терминах:Информационная ценностьа такжеВес доказательств,
Информационная ценность и вес доказательств
Хорошо, я обещаю, что я буду кратким с теорией. Согласно сwww.listendata.comВес доказательств объясняется следующим образом:
Вес доказательств говорит о предсказательной способности независимой переменной по отношению к зависимой переменной. Так как он произошел из мира кредитного скоринга, его обычно описывают как меру разделения хороших и плохих клиентов.«Плохие клиенты»относится к клиентам, которые не выполнили свои обязательства по кредиту. а также«Хорошие клиенты»относится к клиентам, которые вернули кредит. [2]
И из того же источника информационная ценность объясняется следующим образом:
Оба действительно просты для расчета. Ниже приведены формулы:
Если мы говорим о моделировании оттока,Грузбыли бы клиенты, которые не били, иантитоварыбудут клиенты, которые совершили отток. Именно из этого вы можете увидеть простоту формул.
Горе и IV Предпосылки
Чтобы выделить предпосылки, я помещу их в упорядоченный список.
Как только ваш набор данных будет в этой форме, вы можете перейти к процессу расчета WoE и IV.
Пример моделирования оттока
Для создания этого примера я использовалМоделирование оттоканабор данных изKaggle, При загрузке в Pandas это выглядит так:
Анализ релевантности атрибутов для примера моделирования оттока разделен на 6 шагов:
Итак, без лишних слов, давайте начнем!
Шаг 1. Очистка и подготовка данных
Набор данных не содержит пропущенных значений, поэтому условие 1 из 2 выполнено!
Есть 10 000 наблюдений и 14 столбцов. С этого момента я приступил к очистке данных. Вот шаги, которые я предпринял:
Ниже приведен фрагмент кода для выполнения этих шагов:
Набор данных теперь чистый и не содержит непрерывных переменных. Условие 2 из 2 выполнено!
Новая очищенная версия набора данных выглядит следующим образом:
Шаг 2. Расчет IV и WoE
Внизу находится функция, которая будет рассчитывать вес доказательств и ценность информации. Учитывая Pandas DataFrame, имя атрибута и имя целевой переменной, он будет выполнять вычисления.
Функция вернет Pandas DataFrame и IV балл. На первый взгляд код может показаться немного сложным, но не сложным, если вы читаете его построчно.
Чтобы избежать создания множества ненужных кадров данных в памяти, простой цикл распечатает все для вас:
Обратите внимание, что здесьвозбужденномэто имя целевой переменной, и по логическим причинам вы не будете делать для нее вычисления. Когда эта ячейка кода будет выполнена, вы получите много выходных данных в своем блокноте:
Есть простое объяснение.
На данный момент, вы должны просто заботиться о строке, которая говорит IV балл. Точнее,Думайте о переменных с самыми высокими показателями IV, Ниже приведена таблица для IV интерпретации:
Теперь вы должны увидеть более четкую картину. Вы должны сохранять только те атрибуты, которые обладают хорошей предсказательной силой! В текущем наборе данных это:
Шаг 3. Определение профиля Churners
Это на самом деле не обязательный шаг, но он весьма полезен.
Вы, как компания, вероятно, хотите знать, как выглядит типичная машина для перемешивания. Я имею в виду, что вы не заботитесь о его / ее внешнем виде, но вы хотите знать, где живет чирнер, каков его / ее возраст и т. Д…
Чтобы выяснить это, вам нужно более внимательно посмотреть на возвращенные фреймы данных для тех переменных, которые обладают наибольшей предсказательной силой. Точнее, посмотрите наГореколонка. В идеале вы найдетеотрицательный рейтинг WoE— это ценность, которую имеют большинство взбалтывателей.
В нашем примере это типичный профиль churners:
Получив эту информацию, вы, как компания, можете действовать и решать эту критически важную группу клиентов.
Часть 4. Грубая классификация
Еще раз, мне нужно было написать код для этого самостоятельно.
Для этого набора данных следует применять грубую классификациюИспанияа такжеФранциявгеографияатрибут (горе 0,24 и 0,28).
Внизу находится функция для грубой классификации, а также вызов функции. Чтобы вызвать функцию, вы должны знать заранее, каковы местоположения индекса двух строк, которые вы хотите объединить. Код довольно понятен, посмотрите:
А вот как выглядит набор данных после грубого процесса классификации:
Вы можете заметить, чтоЦенностьявляетсяNaNдля вновь созданного ряда. Не о чем беспокоиться, вы можете просто переназначить исходный набор данных, чтобы заменитьИспанияа такжеФранцияс чем-то новым, например,Spain_and_France,
Шаг 5. Создание фиктивной переменной
Мы почти на финише. Почти.
Как вы знаете, модели классификации работают лучше всего, когда существуют только двоичные атрибуты. Вот тут и появляются фиктивные переменные.
Фиктивные переменные понадобятся для следующих атрибутов:
Если вы теперь посмотрите на голову недавно созданного Data Frame:
Шаг 6. Корреляции между фиктивными переменными
Вы сделали это до конца. Завершающим этапом этого процесса является вычисление корреляций между фиктивными переменными и исключение тех, которые имеют высокую корреляцию.
То, что считается высоким коэффициентом корреляции, остается спорным, но я бы посоветовал вамудалить что-либо с соотношением выше 0,7(по абсолютной стоимости).
Если вам интересно, какую фиктивную переменную удалить между двумя,удалить тот, у кого меньше вес доказательств, из-за более слабого соединения с целевой переменной.
Я решил построить матрицу корреляции, чтобы получить хорошее визуальное представление корреляций:
Здесь видно, что не существует корреляции между фиктивными переменными, и, следовательно, все они должны остаться.
Вывод
Я закончу эту часть здесь. Следующая часть будет доступна через пару дней, самое большее через неделю, и будет посвящена разработке и оптимизации прогнозной модели на основе этих фиктивных переменных.
Ссылка на часть 2 будет прикреплена здесь после публикации статьи.
До тех пор, следите за обновлениями!
Ссылки
[1] Клепац Г., Копал Р., Мршич Л. (2014).Разработка моделей оттока с использованием методов интеллектуального анализа данных и анализа социальных сетей.США: IGI-Global