воскресенье, 8 апреля 2018 г.

Aprendizagem de reforço em sistemas de negociação de ações on-line


Aprendizado de Reforço para Sistemas de Negociação e Portfolios.


John Moody e Matthew Saffell.


Propomos a formação de sistemas de negociação através da otimização de funções objetivas financeiras através da aprendizagem de reforço. As funções de desempenho que consideramos como funções de valor são o lucro ou a riqueza, a relação de Sharpe e nossa taxa Sharpe diferencial recentemente proposta para a aprendizagem on-line. Em Moody & amp; Wu (1997), apresentamos resultados empíricos em experiências controladas que demonstraram as vantagens do aprendizado de reforço em relação à aprendizagem supervisionada. Aqui ampliamos nosso trabalho anterior para comparar o Q-Learning com uma técnica de aprendizado de reforço baseada em aprendizagem recorrente em tempo real (RTRL) que maximiza a recompensa imediata. Nossos resultados de simulação incluem uma demonstração espetacular da presença de previsibilidade no índice de ações mensal Standard e Poors 500 para o período de 25 anos de 1970 a 1994. Nosso comerciante de reforço obtém lucro simulado fora da amostra de mais de 4000% para este período, em comparação com o retorno para uma estratégia de compra e retenção de cerca de 1300% (com dividendos reinvestidos). Este resultado superior é alcançado com risco substancialmente menor.


Esta página é protegida por direitos autorais pela AAAI. Todos os direitos reservados. O uso deste site constitui aceitação de todos os termos e condições da AAAI e política de privacidade.


Um framework de Q-learning multi-agente para otimizar os sistemas de negociação de ações.


Jae Won Lee Jangmin O.


Este artigo apresenta um quadro de aprendizagem de reforço para sistemas de negociação de ações. Os parâmetros do sistema de negociação são otimizados pelo algoritmo Qlearning e as redes neurais são adotadas para a aproximação de valores. Nessa estrutura, os agentes múltiplos cooperativos são usados ​​para integrar eficientemente a previsão de tendência global e a estratégia de negociação local para obter melhor desempenho comercial. Os agentes se comunicam com outros que compartilham episódios de treinamento e políticas aprendidas, mantendo o esquema geral de Q-learning convencional. Os resultados experimentais no KOSPI 200 mostram que um sistema de negociação baseado na estrutura proposta supera a média do mercado e faz lucros apreciáveis. Além disso, em vista da gestão de riscos, o sistema é superior a um sistema treinado por aprendizagem supervisionada.


Referências.


Informações sobre direitos autorais.


Autores e afiliações.


Jae Won Lee 1 Jangmin O 2 1. Escola de Ciências da Computação e Engenharia Sungshin Women's University Seul Coreia 2. Escola de Engenharia Informática Universidade Nacional de Seul Seul Coréia.


Sobre este artigo.


Recomendações personalizadas.


Cite o papel.


.RIS Papers Reference Manager RefWorks Zotero.


.BIB BibTeX JabRef Mendeley.


Compartilhe papel.


Download instantâneo legível em todos os dispositivos Possuí-lo para sempre Imposto de venda local incluído, se aplicável.


Cite o papel.


.RIS Papers Reference Manager RefWorks Zotero.


.BIB BibTeX JabRef Mendeley.


Compartilhe papel.


Mais de 10 milhões de documentos científicos ao seu alcance.


Switch Edition.


&cópia de; 2017 Springer International Publishing AG. Parte de Springer Nature.


Sistemas de negociação financeira baseados em Q-Learning com aplicativos.


25 páginas postadas: 11 de outubro de 2014 Última revisão: 23 de maio de 2015.


Marco Corazza.


Universidade Ca-Foscari de Veneza - Dipartimento di Economia.


Francesco Bertoluzzo.


Universidade de Ca Foscari de Veneza.


Data escrita: 9 de outubro de 2014.


O design dos sistemas de negociação financeira (FTSs) é um assunto de grande interesse tanto para o ambiente acadêmico quanto para o profissional devido às promessas por metodologias de aprendizado de máquinas. Neste artigo, consideramos a abordagem de avaliação de políticas baseada em Aprendizado de Reforço conhecida como algoritmo Q-Learning (QLa). QLa é um algoritmo que em tempo real otimiza seu comportamento em relação às respostas que obtém do ambiente em que opera. Em particular: primeiro apresentamos os aspectos essenciais da QLa que são de interesse para nossos propósitos; Em segundo lugar, apresentamos alguns FTS originais com base em QLas de configuração diferente; então, aplicamos tais FTSs a uma série temporal artificial de preços diários de ações e a seis reais do mercado de ações italiano pertencentes à cesta FTSE MIB. Os resultados que alcançamos são geralmente satisfatórios.


Palavras-chave: Sistema de comércio financeiro, aprendizagem de reforço, algoritmo de Q-Learning, séries diárias de preço de estoque diário, cesta FTSE MIB.


Classificação JEL: C61, C63, G11.


Marco Corazza (Autor do Contato)


Universidade de Veneza de Ca Foscari - Dipartimento de Economia ()


Francesco Bertoluzzo.


Universidade Ca Foscari de Veneza ()


Estatísticas de papel.


Jornais relacionados.


Departamento de Economia, série de documentos de pesquisa da Universidade de Veneza de Ca 'Foscari.


Inscreva-se neste diário gratuito para artigos mais curados sobre este assunto.


Papéis recomendados.


Links Rápidos.


Sobre.


Os cookies são usados ​​por este site. Para recusar ou aprender mais, visite nossa página Cookies. Esta página foi processada pela apollo6 em 0.141 segundos.


Aprendizado de Reforço para Sistemas de Negociação e Portfolios.


John Moody e Matthew Saffell.


Propomos a formação de sistemas de negociação através da otimização de funções objetivas financeiras através da aprendizagem de reforço. As funções de desempenho que consideramos como funções de valor são o lucro ou a riqueza, a relação de Sharpe e nossa taxa Sharpe diferencial recentemente proposta para a aprendizagem on-line. Em Moody & amp; Wu (1997), apresentamos resultados empíricos em experiências controladas que demonstraram as vantagens do aprendizado de reforço em relação à aprendizagem supervisionada. Aqui ampliamos nosso trabalho anterior para comparar o Q-Learning com uma técnica de aprendizado de reforço baseada em aprendizagem recorrente em tempo real (RTRL) que maximiza a recompensa imediata. Nossos resultados de simulação incluem uma demonstração espetacular da presença de previsibilidade no índice de ações mensal Standard e Poors 500 para o período de 25 anos de 1970 a 1994. Nosso comerciante de reforço obtém lucro simulado fora da amostra de mais de 4000% para este período, em comparação com o retorno para uma estratégia de compra e retenção de cerca de 1300% (com dividendos reinvestidos). Este resultado superior é alcançado com risco substancialmente menor.


Esta página é protegida por direitos autorais pela AAAI. Todos os direitos reservados. O uso deste site constitui aceitação de todos os termos e condições da AAAI e política de privacidade.

Комментариев нет:

Отправить комментарий