stas | стохастически

You're viewing

stas's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

February 2026

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Navigation

Page Summary

Style Credit

Style: Blue for Drifting by Jennie Griner
Resources: OSWD design

Expand Cut Tags

No cut tags

стохастически

stas

Friday, May 8th, 2020 03:39 pm

Code Review of Ferguson’s Model

В общем, то, что код этой модели ужасен и в нем черт ногу сломит - довольно неудивительно. Даже у программистов с этим часто проблемы, а уж у непрограммистов - пиши пропало. Но там другой прикол - что когда им указывают на то, что в их модели полно багов и race conditions, они говорят "ну так это ж стохастическая модель, конечно она разные результаты выдаёт!" и рекомендуют, если уж такие вы придиры, запускать её single-threaded.

В то, что учёные, занимающиеся вероятностным моделированием, не видят разницы между стохастической моделью и случайным мусором, который вбрасывают в неё баги в коде - я не верю. Это всё равно, что биолог бы плевал в пробирку с образцами со словами "ну а чё, там всё равно биологические материалы!". И тогда возникают вопросы - не пытаются ли нас надуть, в расчёте на то, что мы лохи и пользуясь умными словами типа "стохастический", нам можно продать любую лажу? И если да, то где ещё они нас пытаются кинуть и насколько?

Tags:

Flat | Top-Level Comments Only

no subject

skittishfox

Friday, May 8th, 2020 10:50 pm (UTC)

Ой, вы будете удивлены...

Статистика большая, и за счет её роста в чисто теоретические области там полно странных людей

Link
Reply

no subject

juan_gandhi

Friday, May 8th, 2020 11:32 pm (UTC)

Случайным образом ткнул в код.

///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** /////
///// ***** ///// ***** ///// ***** ///// ***** ///// ***** GLOBAL VARIABLES (some structures in CovidSim.h file and some containers) - memory allocated later.
///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** ///// ***** /////

Программисты такое не пишут. Это ебанаты.

Лвдно. Я работал в H2O, там то же самое. Код, который вылетал раз в две недели, на определенном юниттесте. Важные персоны, объясняющие, что это все ошибки эксперимента. Мержи в мастера, где юниттесты рушатся как до, так и после. Объяснение: мы оптимисты, мы надеемся, что не добавим ошибо.

А эта хрень, раз в две недели - это у них "random()", который засевают от systemTimeMillis; этот рандом используется для вычисления тангенса; так арктангенс в питоне и джаве получается разный. С какого бы хуя? А они когда в джейсон сериализуют, то "округляют" путем прибавления одной миллионной. Тангенс же. Иногда он почти вертикален.

Ну вот такие профессионалы эти "data scientists".

no subject

stas

Friday, May 8th, 2020 11:35 pm (UTC)

Юниттесте! У этого кода юниттестов и в помине нет. Что в сочетании с километровой простынёй формул добавляет особой уверенности. Ненуачё, модель же стохастическая. Какая разница.

no subject

juan_gandhi

Friday, May 8th, 2020 11:37 pm (UTC)

Ну да. Главное чтоб картинка была красивая.

no subject

Friday, May 8th, 2020 11:47 pm (UTC)

Да, с тангенсом весело.

no subject

juan_gandhi

Saturday, May 9th, 2020 12:02 am (UTC)

Тут трюк в том, что берем то же самое число, и, по идее, хоть питон, хоть джава вызывают одну и ту же команду. Дурь происходит при сериализации "случайного числа".

no subject

Saturday, May 9th, 2020 12:19 am (UTC)

Ну так я и говорю, что тангенс округлять опасно, в линке важнее история с Фейнманом, чем обломы калькуляторов.

no subject

Saturday, May 9th, 2020 03:58 am (UTC)

Я не случайным образом, а с самого верха открыл, увидел переменные i1, i2, j1, j2 и немедленно закрыл. Я такой код в прошлом веке подтирал за общепризнанным "маэстро", на всю жизнь хватило.

no subject

stas

Saturday, May 9th, 2020 05:29 am (UTC)

Это небось тяжкое наследие фортрана. Бывает и хуже.

no subject

yarpenzigrin

Saturday, May 9th, 2020 07:03 am (UTC)

В современном коде наличие внешних счётчиков цикла вообще пугает.

no subject

http://users.livejournal.com/sorcerer-/

Saturday, May 9th, 2020 07:59 am (UTC)

> Я работал в H2O, там то же самое.

Я работал в конкуренте H2O.
Там было сильно лучше, в основном потому что дата саентистов били по рукам и без вазелина.

Да ладно

Saturday, May 9th, 2020 12:04 am (UTC)

Это ж write-only код, а не код программного продукта. От него требуется выполниться один раз.

Он не обязан быть оптимизированным. При нормальном выборе алгоритма всё должно сходиться и так, разница в скорости выполнения на пару порядков ничего принципиально не должна менять.

То, что это не C++, а завёрнутый в него C, так это микрософтовцы переписали, как умели, фиг знает что там в оригинале было.

То, что много лишнего, это неизбежно. Исследования так и делаются, попробуем это, потом попробуем то, большинство из попробованного не работает, а чистить мёртвый код некогда, надо передний край науки двигать.

Главная (и единственная) проблема это невоспроизводимость результатов. Это да, такого быть не должно. Но тогда надо за это и наезжать, а не за какой-нибудь unit test coverage.

Re: Да ладно

stas

Saturday, May 9th, 2020 12:13 am (UTC)

Это от rm -fr / требуется выполниться один раз. А модель обычно планируется запускать много раз. Собственно, там в readme прямо так и написано.

Главная (и единственная) проблема это невоспроизводимость результатов.

"На это есть множество причин. Во-первых, у нас не было пороха... - Достаточно, остальные причины не нужны". Этой проблемы, собственно, достаточно.

Re: Да ладно

http://users.livejournal.com/sorcerer-/

Saturday, May 9th, 2020 11:32 pm (UTC)

Ну как бы я знаю как делают код для моделей предикшена.
Там не просто тесты, там prediction consistency tests, если аутпут каждой сраной функции не сходится до 6-ого знака после запятой - хер тебе, а не мердж в мастер.

Re: Да ладно

Saturday, May 9th, 2020 11:40 pm (UTC)

Там не только код, который считает предсказание для конкретного случая. Там ещё код, который определяет параметры модели. Этого кода гораздо больше. Протестировать его для всех возможных входных значений на предмет совпадения до 6-го знака после запятой тупо не хватит времени.

Re: Да ладно

http://users.livejournal.com/sorcerer-/

Sunday, May 10th, 2020 12:45 am (UTC)

Не очень понял ответ и как он относится к тому что я сказал.
Берем код. Берем исходные данные. Берем предикшены которые он сделал и сравниваем. Не рокет саенс.

Re: Да ладно

Sunday, May 10th, 2020 12:57 am (UTC)

Модель предсказывает количество смертей через год. С чем мы сейчас будем сравнивать эти предсказания?

Re: Да ладно

stas

Sunday, May 10th, 2020 01:36 am (UTC)

Хотя бы с предсказаниями той же модели, запущенной ещё раз. Если получается, что та же модель то предсказывает всем бессмертие, то вымирание человеческой расы, то back to the drawing board.

Странный критерий

Sunday, May 10th, 2020 02:12 am (UTC)

Вот модель, которая один и тот же результат выдаёт, ноль смертей в июне и июле с доверительным интервалом плюс-минус ноль.

Приближение многочленом третьей степени в экселе тоже отлично повторяется, сколько раз не нажимай F9.

Повторяемость — критерий совершенно недостаточный и может быть даже вредным. Если модель неустойчивая и сходится только при одном посеве ГПСЧ, то принудительно заставлять её повторяться бит в бит фиксированием seed будет заметанием мусора под ковёр.

Re: Странный критерий

stas

Sunday, May 10th, 2020 02:14 am (UTC)

Никто и не говорит, что достаточный. Беда в том, что у этой модели непонятно, где модель, а где мусор, вызванный багами в модели.

Re: Странный критерий

http://users.livejournal.com/sorcerer-/

Sunday, May 10th, 2020 08:16 am (UTC)

Недостаточный, но это хоть какой-то контрол поинт.

no subject

Saturday, May 9th, 2020 01:35 am (UTC)

Так это всегда так. Еще начиная как минимум с климатолога, который вывел что "бабочка, взмахнувшая крыльями в Калифорнии, может вызывть ураган на Гаваях". У того судя по всему ошибки округления выходили гораздо больше собственно расчетного результата.

Link
Reply

no subject

Saturday, May 9th, 2020 11:27 am (UTC)

Мне кажется, что у всех 97% климатологов, модели где-то такого же уровня.

no subject

Saturday, May 9th, 2020 12:02 pm (UTC)

Боюсь, что там все 99.999%

no subject

Saturday, May 9th, 2020 12:11 pm (UTC)

"97%" — это мем такой, про ебанашек-учёных, у которых "консенсус".

no subject

Saturday, May 9th, 2020 11:30 pm (UTC)

А, то есть 3% можем надеяться "скрытые нормальные", которые просто молчат?
Логично.

Дополнение к

yarpenzigrin

Wednesday, May 13th, 2020 11:47 am (UTC)

https://streetwiseprofessor.com/imperial-should-have-called-winston-wolf/

Re: Дополнение к

stas

Wednesday, May 13th, 2020 06:00 pm (UTC)

А, интересно, так код, который они опубликовали, к тому же не тот код, который они запускали, а уже после починки багов? Прэлэстно.

Flat | Top-Level Comments Only