<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>http://mit.spbau.ru/sewiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Alexander.sirotkin</id>
		<title>SEWiki - Вклад участника [ru]</title>
		<link rel="self" type="application/atom+xml" href="http://mit.spbau.ru/sewiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Alexander.sirotkin"/>
		<link rel="alternate" type="text/html" href="http://mit.spbau.ru/sewiki/index.php/%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%92%D0%BA%D0%BB%D0%B0%D0%B4/Alexander.sirotkin"/>
		<updated>2026-04-06T03:56:41Z</updated>
		<subtitle>Вклад участника</subtitle>
		<generator>MediaWiki 1.26.2</generator>

	<entry>
		<id>http://mit.spbau.ru/sewiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_2012&amp;diff=1732</id>
		<title>Машинное обучение 2012</title>
		<link rel="alternate" type="text/html" href="http://mit.spbau.ru/sewiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_2012&amp;diff=1732"/>
				<updated>2012-10-30T11:45:58Z</updated>
		
		<summary type="html">&lt;p&gt;Alexander.sirotkin: /* Домашние задания */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Лектор - Николенко С. И.&lt;br /&gt;
&lt;br /&gt;
== Лекции ==&lt;br /&gt;
&lt;br /&gt;
== Домашние задания ==&lt;br /&gt;
=== Крестики-нолики ===&lt;br /&gt;
&lt;br /&gt;
Требуется написать программу, которая обучается играть за первого игрока (крестики) против фиксированной стратегии второго игрока (нолики). В случае ничейного результата партия считается проигранной крестиками.&lt;br /&gt;
В качестве стратегии второго использовать следующую: если нолики могут своим ходом составить ряд из трех нолей, то они делают этот ход. Если такого хода нет, то ход выбирается случайно равновероятно из всех незанятых клеток.&lt;br /&gt;
Попробовать две стратегии обучения: TD (когда после хода ценность позиции сдвигается в сторону ценности новой позиции) и стратегию, которая премирует все позиции которые встретились в партии, если крестики победили и депремирует, если проиграли.&lt;br /&gt;
В качестве стратегии выбора хода крестиков реализовать \epsilon-жадную и температурную. &lt;br /&gt;
Программа должна, непрерывно обучаясь, провести 100 раз по 1000 партий и для каждой тысячи вывести число побед крестиков в консоль или в файл.&lt;br /&gt;
Задача зачитывается при наличии кода и четырёх файлов (для всех сочетаний стратегии поведения и стратегии обучения), показывающих динамику числа побед.&lt;br /&gt;
&lt;br /&gt;
=== Про монетку ===&lt;br /&gt;
&lt;br /&gt;
Рассмотрим следующую игру: У вас есть сумма от 1 до 99 монет, вы делаете ставку и подбрасываете монетку. Если выпал &amp;quot;орёл&amp;quot;, то ставка удваивается, иначе теряется. Цель игры набрать ровно 100 монет.&lt;br /&gt;
Зафиксируем базовую стратегию: Если сумма меньше или равна 50 монетам, то ставим всё, иначе недостающую до 100 сумму. Пользуясь данной стратегией, проэмулировать по 100 игр из каждого начального состояния.&lt;br /&gt;
По результатам эмуляции для каждого положения вычислить &amp;quot;взвешенный успех&amp;quot; --- долю игр, прошедших через это состояние, закончившихся успехом.&lt;br /&gt;
По результатам вычисления выбрать новую стратегию ставок --- жадную, по отношению к новым весам позиций.&lt;br /&gt;
Повторить такую процедуру до схождения стратегии (до момента, когда ставки перестанут меняться).&lt;br /&gt;
Провести такое моделирование для разной вероятности выпадения орла --- 0.4, 0.5, 0.6 и вывести получившиеся оптимальные стратегии.&lt;br /&gt;
Задача зачитывается при наличии кода и трёх файлов (для трёх вероятностей выпадения орла), содержащих полученную стратегию в виде пар чисел &amp;quot;состояние&amp;quot;--&amp;quot;ставка&amp;quot;.&lt;br /&gt;
&lt;br /&gt;
=== Блекджек ===&lt;br /&gt;
&lt;br /&gt;
Задача: научиться играть в блекджек против дилера с фиксированной стратегией.&lt;br /&gt;
&lt;br /&gt;
Правила игры: игроку и дилеру сдаётся по две карты. Если у игрока 21 очко при сдаче, то дилер открывает свою руку и они сравниваются. Если этого не произошло, то игра продолжается по правилам, описанным далее. Игрок видит свои карты и одну карту дилера. Каждый ход игрок выбирает одну из двух возможностей: взять еще карту или остановиться. Ходы игрока продолжаются до тех пор, пока он не выберет &amp;quot;остановиться&amp;quot; или не наберёт больше 21 очка. Карты имеют следующую стоимость в очках: туз --- 1 или 11 по выбору игрока, остальные картинки 10, остальные карты по своему значению.&lt;br /&gt;
Если игрок набрал больше 21, то он считается проигравшим. Если игрок остановился, то дилер начинает набирать карты.&lt;br /&gt;
&lt;br /&gt;
Стратегия 1: Дилер набирает, пока у него не будет 17 или больше, и останавливается.&lt;br /&gt;
&lt;br /&gt;
Стратегия 2: Дилер набирает, пока у него не будет столько же, сколько у игрока, и останавливается.&lt;br /&gt;
&lt;br /&gt;
Предполагая, что каждая следующая карта достается из новой колоды, обучить стратегию поведения игрока. Начав со стратегии &amp;quot;останавливаться&amp;quot; на 20 и 21 проэмулировать ряд партий и построить вес успешности позиций, считая, что победа дает одно очко, поражение --- минус одно, ничья --- ноль.&lt;br /&gt;
В качестве новой стратегии взять жадную стратегию при полученных весах. Повторять до сходимости. Позицией считать сумму карт в руке, открытую карту (ее стоимость) дилера и факт наличия в руке туза, которого вы считаете за 11.&lt;br /&gt;
Задача зачитывается при наличии кода и описания полученных стратегий игрока, для двух стратегий дилера. Стратегия игрока описывается, как решения игрока (&amp;quot;взять&amp;quot; или &amp;quot;остановиться&amp;quot;) при заданном числе очков в руке, открытой карты дилера и наличия в руке туза за 11 очков.&lt;br /&gt;
&lt;br /&gt;
=== OCR ===&lt;br /&gt;
&lt;br /&gt;
Цель задачи научиться распознавать печатный (или рукописный) текст на английском переводя его из картинки в последовательность символов.&lt;br /&gt;
Для этого необходимо реализовать следующие компоненты:&lt;br /&gt;
&lt;br /&gt;
1. Построить сеть (HMM или любую другую модель) для которой будет решаться задача MAP (поиск наиболее вероятного набора значений переменных при заданных свидетельствах).&lt;br /&gt;
&lt;br /&gt;
2. Обучить распределения вероятностей соседних букв (возможно более сложных связей) на основе словаря.&lt;br /&gt;
&lt;br /&gt;
3. Реализовать распознование отдельного символа (на основе нейронной сети или как вам будет угодно). Базу для обучения можно взять тут: http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/&lt;br /&gt;
&lt;br /&gt;
4. Реализовать разбиение картинки на отдельные слова и символы.&lt;br /&gt;
&lt;br /&gt;
5. Объединить все вышеописанное.&lt;br /&gt;
&lt;br /&gt;
== Список литературы ==&lt;br /&gt;
&lt;br /&gt;
== Полезные ссылки ==&lt;/div&gt;</summary>
		<author><name>Alexander.sirotkin</name></author>	</entry>

	<entry>
		<id>http://mit.spbau.ru/sewiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_2012&amp;diff=1605</id>
		<title>Машинное обучение 2012</title>
		<link rel="alternate" type="text/html" href="http://mit.spbau.ru/sewiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_2012&amp;diff=1605"/>
				<updated>2012-10-02T11:32:20Z</updated>
		
		<summary type="html">&lt;p&gt;Alexander.sirotkin: /* Домашние задания */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Лектор - Николенко С. И.&lt;br /&gt;
&lt;br /&gt;
== Лекции ==&lt;br /&gt;
&lt;br /&gt;
== Домашние задания ==&lt;br /&gt;
1. Крестики-нолики.&lt;br /&gt;
Требуестся написать программу которая обучается играть за первого игрока (крестики) против фиксированной стратегии второго игрока. В случае ничейного результата партия считается проигранной крестиками.&lt;br /&gt;
В качестве стратегии второго использовать следующую: если нолики могут своим составить ряд из трех нолей, то они делают этот ход. Если такого хода нет, то ход выбирается случайно равновероятно из всех незанятых клеток.&lt;br /&gt;
Попробовать две стратегии обучения: TD (когда после хода ценность позиции сдвигается в сторону ценности новой позиции) и стратегию, которая премирует все позиции которые встретелись в партии если крестики победили и депримирует если проиграли.&lt;br /&gt;
В качестве стратегии выбора хода крестиков реализовать \epsilon-жадную и температурную. &lt;br /&gt;
Программа должна, непрерывно обучаясь, провести 100 раз по 1000 партий и для каждой тысячи вывести число побед крестиков в консоль или в файл.&lt;br /&gt;
Задача зачитывается при наличии кода и четырех файлов (для всех сочетаний стратегии поведания и стратегии обучения) показывающих динамику числа побед. &lt;br /&gt;
&lt;br /&gt;
2. Про монетку.&lt;br /&gt;
Рассмотрим следующую игру: У вас есть сумма (от 1 до 99 монет), Вы делаете ставку и подбрасываете монетку. Если выпал &amp;quot;орел&amp;quot;, то ставка удваивается, иначе теряется. Цель игры набрать ровно 100 монет.&lt;br /&gt;
Зафиксируем базовую стратегию: Если меньше или равно 50 монет, то ставим все иначе недостающую до 100 сумму. Пользуясь данной стратегие проэмулировать по 100 игр из каждого начального состояния.&lt;br /&gt;
По результатам эмуляции для каждого положения вычислить &amp;quot;взвешенный успех&amp;quot; --- долю игр прошедших через это состояние, закончившиеся успехом.&lt;br /&gt;
По результатам вычисления выбрать новую стратегию ставок --- жадную, по отношению к новым весам позиций.&lt;br /&gt;
Повторить такую процедуру до схождения стратегии (до момента, когда ставки перестанут менятся).&lt;br /&gt;
Провести такое моделирования для разной вероятности выпаденя орла --- 0.4, 0.5, 0.6. И вывести получившиеся оптимальные стратегии.&lt;br /&gt;
Задача зачитывается при наличии кода и трех файлов (для трех вероятностей выпадения орла) содержащих полученную стратегию в виде пар чисел &amp;quot;состояние&amp;quot;--&amp;quot;ставка&amp;quot;.&lt;br /&gt;
&lt;br /&gt;
3. Блек-Джек.&lt;br /&gt;
Задача научиться играть в Блек-Джек против диллера с фиксированной стратегией.&lt;br /&gt;
Правила игры: игроку и диллеру сдается по две карты. Если у игрока 21 очко при сдаче, то диллер открывает свою руку и они сравниваются. Если этого не произошло, то игра продолжается по правилам описанным далее. Игрок видит свои карты и одну карту диллера. Каждый ход игрок выбирает одну из двух возможностей: взять еще карту или остановиться. Ходы игрока продолжаются до тех пор пока он не выберет &amp;quot;остановиться&amp;quot; или не наберет больше 21 очка.&lt;br /&gt;
Если игрок набрал больше 21, то он считается проигравшим. Если игрок остановился, то диллер начинает набирать карты. Стратегия 1: Диллер набирает пока у него не будет 17 или больше и останавливается. Стратегия 2: Диллер набирает пока у него не будет столько же сколько у игрока и останавливается.&lt;br /&gt;
Карты имеют следующую стоимость в очках: Туз --- 1 или 11 по выбору игрока, остальные картинки 10, остальные карты по своему значению.&lt;br /&gt;
Предполагая, что каждая следующая карта достается из новой колоды, обучить стратегию поведения игрока. Начав со стратегии останавливаться на 20 и 21 проэмулировать ряд партий и построить вес успешности позиций, считая, что победа дает одно очко, поражение --- минус одно, ничья --- ноль.&lt;br /&gt;
В качестве новой стратегии взять жадную стратегию при полученных весах. Повторять до сходимости. Позицией считать сумму карт в руке, открытую карту (ее стоимость) диллера и факт наличия в руке туза, которого вы считаете за 11.&lt;br /&gt;
Задача зачитывается при наличии кода и описания полученных стратегий игрока, для двух стратегий диллера. Стратегия игрока описывается, как решения игрока (взять или остановится) при заданном числе очков в руке, открытой карты диллера и наличия в руке туза за 11 очков.&lt;br /&gt;
&lt;br /&gt;
== Список литературы ==&lt;br /&gt;
&lt;br /&gt;
== Полезные ссылки ==&lt;/div&gt;</summary>
		<author><name>Alexander.sirotkin</name></author>	</entry>

	</feed>