Não se concentre em tecnologias, funções e organogramas. Em vez disso, pense em como tornar a ciência de dados uma competência essencial da sua organização.

Todos nós lemos que os dados são o “combustível do futuro”, ouvimos que os cientistas de dados têm “o emprego mais sexy do século 21” e vimos as previsões de um crescimento impressionante ano a ano no setor de inteligência de negócios e Empresas de Link Dedicado .

Mas com 85% dos projetos de big data falhando, fica claro que muitas empresas lutam para alcançar os benefícios prometidos de dados e IA. Na minha experiência como consultor de ciência de dados, isso muitas vezes leva as empresas a fazer perguntas como:

Quais tecnologias e métodos devemos usar para armazenar, analisar e compartilhar nossos dados?
Quais habilidades e funções precisamos em nossa equipe de ciência de dados?
Como devemos posicionar nossa equipe de ciência de dados dentro da organização?

Link Dedicado

Podemos planejar e gerenciar projetos de ciência de dados da mesma maneira que projetos tradicionais?
Ouvi dizer que a empresa x no setor y teve grande sucesso com z. Isso é aplicável à minha situação?
Embora essas considerações sejam importantes, eu argumentaria que todas são versões da mesma pergunta fundamental:

Como a ciência de dados cria valor para uma empresa?

Recentemente, investiguei essa questão na minha dissertação de MBA na Universidade de Warwick e, neste post, apresentarei um resumo dessa pesquisa. Ao longo do caminho, descreverei algumas lições e recomendações baseadas no meu trabalho como consultor e cientista de dados. Notas e referências adicionais podem ser encontradas no final.

Principais tópicos

A função de ciência de dados de uma empresa pode ser vista como um conjunto de recursos que podem ser coordenados em recursos. Idealmente, esses recursos devem apoiar os objetivos estratégicos gerais da empresa e criar uma vantagem competitiva sustentável.

O valor criado por uma capacidade de ciência de dados depende da extensão em que é uma competência essencial da empresa. Cientistas de dados e computação em nuvem não fazem nada por si mesmos; O valor é criado quando esses recursos e capacidades estão alinhados aos objetivos estratégicos da empresa e ajudam a empresa a reagir a um ambiente competitivo dinâmico.

Esse relacionamento varia de acordo com o setor e o tipo de empresa. Embora os resultados não suportem uma resposta definitiva, parece que as empresas de setores com ambientes competitivos em rápida evolução (por exemplo, TI ou serviços) provavelmente têm fortes recursos essenciais de ciência de dados. Empresas bem estabelecidas e aquelas com novos recursos de ciência de dados também têm maior probabilidade de ter uma forte competência central em ciência de dados.

As empresas podem melhorar a vantagem competitiva de seus recursos de ciência de dados, por exemplo, enfatizando o desenvolvimento de habilidades de gerenciamento de ciência de dados; selecionando projetos que se alinham aos principais objetivos estratégicos e que exigem equipes multifuncionais; garantindo que a capacidade de ciência de dados seja suficientemente ágil para o ritmo da mudança no setor da empresa; e mapeando possíveis conflitos nas escalas individual, operacional e estratégica.

Link Dedicado

Recursos, capacidades e competências essenciais

Um objetivo fundamental de uma empresa é desenvolver e manter uma vantagem competitiva no mercado.¹ Para entender a potencial contribuição da ciência de dados para esse objetivo, vale a pena revisar dois conceitos-chave da literatura sobre gerenciamento estratégico: a visão baseada em recursos do capacidades firmes e dinâmicas.

A teoria baseada em recursos (RBT) da vantagem estratégica é “uma das teorias mais proeminentes e poderosas para entender as organizações” (Barney, Ketchen e Wright, 2011: 1299). Em resumo, a teoria sustenta que as empresas são compostas por:

recursos: insumos de produção controlados pela empresa (Grant, 1991) ou “qualquer coisa que possa ser considerada uma força ou fraqueza” (Wernerfelt, 1984: 172).

capacidades: “a capacidade de uma equipe de recursos para executar alguma tarefa ou atividade” (Grant, 1991: 119). Para a ciência de dados, os recursos relevantes podem incluir a capacidade de reunir e processar dados operacionais, criar modelos preditivos e comunicar os insights resultantes às partes interessadas e aos tomadores de decisão.

Embora o RBT possa ser poderoso para explicar por que as empresas atualmente têm uma vantagem competitiva, é menos eficaz em explicar como essas posições são criadas e mantidas em um ambiente competitivo dinâmico.

Para isso, passamos a recursos dinâmicos, “a capacidade da empresa de integrar, criar e reconfigurar competências internas e externas para lidar com ambientes em rápida mudança”, por exemplo. detectando oportunidades e ameaças do mercado, aproveitando essas oportunidades e transformando os ativos da empresa para manter a competitividade (Teece, 2007).

A literatura sobre o gerenciamento de sistemas de informação em geral e a análise de dados em particular destacam dois recursos dinâmicos notáveis. O primeiro argumenta que o benefício de um sistema de TI depende de seu alinhamento com os objetivos estratégicos da empresa, bem como de suas operações e cultura diárias (por exemplo, Venkatraman, 1993; Krishnamoorthi & Matthew, 2018).

Tradicionalmente, esse alinhamento pode ter sido alcançado através da padronização de processos e gerenciamento de projetos em estilo cascata; por outro lado, as atividades de ciência de dados são geralmente exploratórias, o que implica que é mais provável que o alinhamento seja alcançado por meio dos métodos de desenvolvimento Agile.

A segunda é que os sistemas de TI podem melhorar a agilidade de uma organização, ou seja, sua capacidade de “identificar e responder com eficácia a ameaças e oportunidades com velocidade” (Ghasemaghaei, Hassanein e Turel, 2017: 95).

Link Dedicado

Uma pesquisa com mais de 3.500 executivos de negócios sobre os desafios da tecnologia digital sugeriu que essa flexibilidade é essencial para as empresas responderem a um ambiente em rápida mudança a longo prazo. Como disse um entrevistado, uma empresa pode promover ativamente uma capacidade específica no curto prazo, mas em um período de dez anos, “estamos sendo atraídos por nossos clientes, tecnologia e globalização” (Buckley e Natasha, 2017: 5).

Na análise abaixo, uso as idéias de alinhamento de mercado e agilidade interna como elementos da “competência principal” de uma empresa; isto é, as capacidades estratégicas que são fundamentais para o desempenho da empresa e sustentam múltiplas fontes de criação de valor (Prahalad e Hamel, 1990).

A extensão em que a ciência de dados pode ser uma competência essencial foi recentemente levantada na literatura sobre “Big Data Analytics Capabilities” (por exemplo, Mikalef et al., 2018) e minha hipótese é que a ciência de dados cria valor para uma empresa, sustentando múltiplas capacidades organizacionais; esse relacionamento proposto é mostrado na Figura 1.

O modelo proposto para como a ciência de dados cria valor para as empresas. Embora estudos anteriores (1, 2, 3) tenham destacado a importância do construto competência principal para a criação de valor em ciência de dados, eles imaginaram que o construto competência essencial é independente da capacidade de ciência de dados da empresa.

Ao modelá-lo como um relacionamento de mediação – e não moderação -, o presente estudo é mais capaz de avaliar se um recurso de ciência de dados cria valor somente através de sua capacidade de promover um recurso de ciência de dados principal que suporta os objetivos mais amplos e os recursos dinâmicos da empresa. Construções latentes são mostradas em retângulos arredondados, itens medidos em retângulos. Uma lista dos itens usados ​​pode ser encontrada no final deste artigo.

Coleção de dados

A maior parte da literatura anterior sobre esse tópico utilizou análise fatorial confirmatória e modelagem de equações estruturais para testar hipóteses, e tomei a mesma abordagem aqui. Para coletar os dados necessários, projetei uma pesquisa em formato fechado, na qual os entrevistados perguntavam:

seus dados demográficos, experiência em ciência de dados e atributos de sua empresa;
a natureza dos recursos de ciência de dados em sua organização;
quão bem integrada a função de ciência de dados está com os objetivos estratégicos gerais da empresa; e
suas percepções sobre o valor criado pela ciência de dados em sua empresa. Avaliei o valor como uma avaliação subjetiva da maneira pela qual a ciência de dados ajudou a empresa do entrevistado a descobrir, criar e obter valor (Sheng et al., 2007); uma avaliação monetária de custos e benefícios (por exemplo, Vidgen et al., 2017) foi descartada porque os entrevistados eram representantes de indústrias desconhecidas e também podem não ter acesso a essas informações.

Depois de testar e revisar a pesquisa, ela foi distribuída em maio de 2019 por grupos de ciência de dados no LinkedIn, mídia social e redes de profissionais e ex-alunos. A Figura 2 apresenta um resumo dos principais recursos dos 50 respondentes válidos.

Figura 2. Características selecionadas dos respondentes da pesquisa. Os entrevistados vieram de setores como TIC, assistência médica, serviços profissionais e varejo, entre outros.

Consulte a nota técnica para obter detalhes sobre como a validade dos instrumentos de pesquisa foi verificada e as limitações do estudo.

Principais conclusões

Conclusão 1: Ter uma capacidade de ciência de dados não é suficiente

Para criar valor a partir de um recurso de ciência de dados, não basta contratar cientistas de dados e fazê-los executar seus dados através de alguns algoritmos de aprendizado de máquina. Como mostra a Figura 2, o valor é criado principalmente quando essa capacidade de ciência de dados é uma competência essencial da empresa; isto é, permite que a organização concorra em vários mercados, coordena habilidades em toda a organização e é percebida como parte integrante da criação de valor para o cliente.

Figura 3. Um recurso de ciência de dados (CAP) cria valor, mas principalmente quando esse recurso é integrado como uma competência essencial da empresa. Os pesos das arestas mostram cargas padronizadas de um modelo de equação estrutural e os caminhos entre as construções latentes são significativos em p ≤ 0,01, exceto CAP → VALOR (p = 0,71). As variações residuais não são mostradas para maior clareza.

Link Dedicado

Na prática, esse resultado pode ser mais importante para as organizações no início de sua jornada de ciência de dados. Nos estúdios da DAIN, trabalhamos com clientes que já haviam realizado estudos-piloto de ciência de dados, mas ficamos desapontados por esses projetos não terem tido um impacto transformador em seus negócios. Não há nada intrinsecamente errado em pequenos projetos – eles são uma ótima maneira de criar capacidades e confiança dentro da organização – mas precisam contribuir para uma competência central sustentável. Nossas principais dicas incluem:

As equipes de estudo piloto devem ser multifuncionais. Não exporte apenas um despejo de dados para a equipe de ciência de dados e espere que eles retornem com um produto acabado. Trabalhar em conjunto ajuda a organização a alinhar interesses e processos de trabalho e, assim, preparar o terreno para uma implantação mais fácil de insights de ciência de dados.

Selecione estudos piloto que desenvolvam novos recursos alinhados aos objetivos estratégicos. Por exemplo, se a empresa tiver um objetivo geral de aumentar a receita em x%, um estudo piloto adequado pode envolver a integração de duas fontes de dados anteriormente desconectados que fornecem mais informações sobre seus clientes e que tipos de ofertas podem ser atraentes para eles.

Também pode ser útil ter um roteiro de análise que mapeie como projetos individuais contribuem coletivamente para o desenvolvimento dos recursos desejados, por exemplo, infraestrutura de armazenamento de dados, desenvolvimento de algoritmos ou visualização.

Conclusão 2: as empresas de setores em rápida evolução têm maior probabilidade de ter uma forte competência central no DS

Como o relacionamento acima muda para diferentes tipos de firmas? Pesquisas anteriores sugeriram que as características da empresa exercem uma influência menor ou até inexistente na agilidade de uma empresa (consulte as referências na Figura 1); no entanto, os resultados presentes destacam duas características importantes: o setor geral de uma empresa e seu histórico individual (Figura 4 e Figura 5).

Figura 4. Características da empresa – como indústria (F1: indústria = TIC? E F2: indústria = serviços?), Tamanho (F3) e a idade de sua capacidade de ciência de dados (F4) – tiveram um efeito significativo sobre até que ponto a ciência de dados é uma competência essencial. Os pesos das arestas mostram cargas padronizadas de um modelo de equação estrutural e os caminhos entre as construções latentes foram significativos em p ≤ 0,01, exceto CAP → VALOR (p = 0,392). Variações residuais e covariâncias exógenas não são mostradas para maior clareza.

Figura 5. As características da empresa influenciam até que ponto a ciência de dados é um recurso essencial. Todas as características são modeladas como variáveis ​​dummy. Empresas estabelecidas são aquelas com mais de 25 anos ou mais de 1000 funcionários. As linhas indicam intervalos de confiança de 95%, e F1 e F3 são significantes em p <0,05 (F2 → CORE, p = 0,075; F4 → CORE, p = 0,093).

Vamos começar com a indústria. Em relação a todos os outros setores, constatou-se que as empresas dos setores de TIC e Serviços² têm as competências essenciais mais fortes em ciência de dados. A idéia de velocidade ambiental ajuda a explicar por que esse pode ser o caso (McCarthy et al., 2010).

O ritmo da mudança no ambiente competitivo de uma empresa – por exemplo, as tecnologias subjacentes que ela usa, suas ofertas de produtos, as demandas de seus clientes etc. – desempenham um papel significativo na formação dos recursos e capacidades que uma empresa deve possuir para permanecer competitivo.

Os mercados modernos são suficientemente abertos e dinâmicos para que as empresas precisem de pelo menos algum nível de capacidade dinâmica para sobreviver, mas em ambientes de alta velocidade, a duração da vantagem competitiva é incerta, o tempo disponível para a tomada de decisões é limitado e as capacidades dinâmicas são instáveis.

(Eisenhardt e Martin, 2000). Por esse motivo, Schilke (2014) argumenta que as capacidades dinâmicas contribuem mais para a vantagem competitiva quando a direção e magnitude das mudanças ambientais são aproximadamente previsíveis e os custos de desenvolvimento de tais capacidades podem ser recuperados com alguma certeza. Essa velocidade “moderada” do ambiente parece se aplicar à ciência e análise de dados, à medida que o setor amadurece e os recursos e capacidades necessários se tornam mais amplamente disponíveis e padronizados (Ransbotham et al., 2016).

Para a maioria das empresas, a ciência de dados é apenas parte das capacidades gerais da empresa e, portanto, a velocidade da indústria matriz ainda é importante. O setor de TIC, por exemplo, é impulsionado por rápidos desenvolvimentos tecnológicos exógenos e, portanto, esperamos que essas empresas tenham experiência e capacidade de integrar recursos de ciência de dados, independentemente de a ciência de dados representar outra onda de grande inovação ou simplesmente “vinho velho em garrafas novas ”.

Da mesma forma, as empresas de serviços podem ter ciclos de inovação mais curtos, facilitando a experimentação e a adaptação às novas tecnologias. Por outro lado, as empresas de assistência médica, manufatura ou outras indústrias podem ser mais usadas para velocidades ambientais mais lentas, impulsionadas por, por exemplo, mudanças na regulamentação ou concorrência limitada.

As empresas devem, portanto, prestar muita atenção à velocidade ambiental de suas indústrias. Se o ritmo da mudança for lento, poderá haver mais tempo disponível para desenvolver um recurso de ciência de dados. No entanto, se o ritmo da mudança for mais rápido, as empresas precisam ser mais proativas.

Isso destaca um risco particular para as empresas que estão acostumadas a taxas de mudança mais lentas, mas que agora enfrentam a interrupção de novos participantes; de fato, muitas empresas de assistência médica começaram a reconhecer a ameaça estratégica representada pela introdução da ciência de dados e da inteligência artificial em suas cadeias de valor (1, 2).

Descoberta 3: O histórico da empresa afeta a força da competência principal da ciência de dados, mas o relacionamento é complexo

Os resultados da regressão acima também incluem atributos do histórico de uma empresa, a saber, se é uma empresa estabelecida (com mais de 25 anos ou mais de 1000 funcionários) e se sua capacidade de ciência de dados tem mais ou menos de dois anos. No entanto, dados os dados limitados neste estudo, a história permanece incerta.

empresas com uma capacidade mais jovem de ciência de dados parecem ter uma competência principal mais forte. Isso pode ocorrer porque essas empresas são essencialmente adotantes tardias da ciência de dados e foram capazes de aprender com a experiência de outras pessoas.

Por exemplo, relatórios recentes (1, 2) sugerem que as empresas alemãs ficam atrás de suas contrapartes internacionais na adoção de ciência de dados e tecnologia digital de maneira mais geral. Como uma empresa com herança alemã-finlandesa, a DAIN Studios ajudou os clientes a superar algumas dessas barreiras organizando “tours de experiências” que demonstram o que significa ter uma competência essencial em dados e IA.

Organizações maiores e mais estabelecidas também parecem ter competências essenciais mais fortes, enquanto se pode esperar que essas empresas tenham dificuldade em adaptar novas tecnologias de ciência de dados aos processos existentes.

Uma interpretação possível é que essas empresas simplesmente renomearam os recursos existentes como “ciência de dados”, por exemplo, renomeando funções de “inteligência de negócios” ou incorporando ciência de dados às unidades de negócios. Como alternativa, o sucesso duradouro das empresas estabelecidas pode ser construído sobre competências de agilidade que permitem que quase qualquer nova capacidade seja adotada rapidamente, uma vez que é percebida como tendo um forte alinhamento com a direção geral da empresa.

Mais pesquisas precisam ser feitas para entender melhor esses efeitos. No entanto, na prática, seria bom estar ciente dos possíveis conflitos dentro de uma empresa que podem impedir que uma capacidade de ciência de dados se torne uma competência essencial. Estes podem ser descritos em três escalas:

Indivíduo: O setor de seguros relatou dificuldades em conciliar os recursos analíticos existentes e os novos cientistas de dados como um conflito entre “tradicionalistas encurralados e cowboys perigosos”.

Operacional: O conflito geralmente ocorre entre a ciência de dados e as funções de TI. Por exemplo, políticas existentes de compras e segurança de TI podem restringir a capacidade de uma equipe de ciência de dados de executar seu trabalho. A chave aqui é distinguir entre experimentação e produção; existem claramente dependências entre essas duas atividades, mas o risco é que o foco excessivo nas restrições dos sistemas de produção iniba a experimentação produtiva. Tais conflitos operacionais são mais prováveis ​​em empresas com culturas adversas ao risco.

Estratégico: em empresas estabelecidas, projetos e recursos de ciência de dados são frequentemente lançados com suporte gerencial de alto nível, na esperança de que a ciência de dados agregue valor significativo a uma empresa. Portanto, é compreensível que uma função de TI existente possa ver uma equipe de ciência de dados invadir seu território e alegar que as atividades de TI existentes também são “ciência de dados”. Isso pode criar conflitos políticos dentro das organizações que novamente impedem que a ciência de dados se torne uma competência essencial.

Não há solução fácil para esses obstáculos. Mas uma consideração cuidadosa da história de uma organização e a identificação de possíveis fontes de conflito podem ajudar a facilitar a adoção da ciência de dados.

Conclusão 4: Todos os recursos de ciência de dados são importantes, mas alguns são mais importantes que outros.
A descoberta 1 mostrou que a capacidade de ciência de dados de uma empresa afeta sua capacidade de produzir valor a partir de ciência de dados, indiretamente por meio de uma competência central de ciência de dados. Mas o que queremos dizer com capacidade de ciência de dados?

Seguindo a literatura (por exemplo, Gupta e George, 2016), um recurso de ciência de dados pode ser dividido em três componentes:

recursos técnicos, por exemplo fontes de dados e tecnologias de processamento de dados;
habilidades humanas, tanto técnicas quanto gerenciais; e
recursos intangíveis, p. aprendizagem organizacional e o papel dos dados na cultura de tomada de decisão.
O questionário atual adotou esse mesmo modelo, mas a análise fatorial confirmatória constatou que nem todos esses componentes são de igual importância (Figura 6).

Recursos tangíveis de ciência de dados, como dados e tecnologia, tiveram cargas comparativamente baixas nessa análise. Isso é consistente com a literatura anterior sobre gerenciamento estratégico de tecnologias da informação, que afirma que esses ativos oferecem muito pouca vantagem competitiva quando podem ser adquiridos facilmente no mercado aberto (por exemplo, Powell e Dent ‐ Micallef, 1997). Indiscutivelmente, muitas tecnologias de ciência de dados estão sendo similarmente comoditizadas; por exemplo, os itens de pesquisa usados ​​nesta pesquisa foram originalmente escritos em 2016 e se referem ao Hadoop e NoSQL, tecnologias que muitos cientistas de dados considerariam agora padrão (ou até desatualizadas).

Isso implica que a vantagem estratégica de uma capacidade de ciência de dados deriva principalmente daqueles fatores difíceis de copiar entre as empresas: habilidades humanas e recursos intangíveis. Embora se esperasse ver cargas mais altas para os itens da cultura de tomada de decisão orientada a dados nesta pesquisa, as habilidades técnicas e gerenciais foram confirmadas como as melhores reflexões da capacidade geral da ciência de dados. Como isso pode mudar ao longo do tempo é incerto.

Alguns comentaristas acreditam que muitas das tarefas atualmente executadas pelos cientistas de dados serão automatizadas em um futuro próximo, o que significa que as habilidades técnicas podem se tornar menos exclusivas entre as organizações.
O que esses achados significam na prática?

Pense com cuidado nas habilidades técnicas de terceirização. As empresas podem obter sucesso nos modelos de aquisição de habilidades “do” e “comprar”, mas também podem ter dificuldades com os dois modelos. Uma heurística útil é se perguntar: até que ponto essa habilidade técnica facilita uma parte essencial da oferta de nossos clientes? Se a resposta for “não muito”, a terceirização pode ser boa. Mas se toda a sua empresa seria ameaçada pela saída da equipe técnica principal, provavelmente é melhor manter essas habilidades internamente. Como Prahalad e Hamel observam:

“Em nossa opinião, muitas empresas renunciaram involuntariamente às competências essenciais quando cortaram o investimento interno no que pensavam erroneamente serem apenas ‘centros de custo’ a favor de fornecedores externos”. (p. 7)

Criar e gerenciar com êxito uma equipe de ciência de dados é um tópico para outro dia, mas em um artigo recente da Sloan Management Review, Roger Stein enfatiza a importância da educação. Os cientistas de dados dentro das organizações, principalmente as grandes, precisam se envolver com outras unidades de negócios para aumentar sua compreensão do domínio comercial, conhecer as variações locais na cultura comercial e explicar como os projetos de ciência de dados podem diferir das práticas de trabalho bem estabelecidas. . Se você é um gerente de ciência de dados em particular, essas tarefas devem fazer parte de sua rotina diária tanto quanto as revisões de código e as discussões técnicas.

Sumário

A ciência de dados está amadurecendo como uma profissão e se estabeleceu como uma função vital em muitas organizações modernas. No entanto, as empresas ainda enfrentam desafios reais para extrair valor dos recursos da ciência de dados.

Esta pesquisa confirma que não basta comprar “um quilo de IA”; as organizações também devem tentar tornar essa capacidade uma competência essencial da empresa, com impacto em vários recursos e capacidades, em vários produtos e serviços. A escala desse desafio parece depender dos atributos da empresa e de seu setor. Embora existam medidas concretas que podem ser tomadas para promover esse relacionamento, não há soluções fáceis. Leva tempo e esforço para desenvolver recursos de ciência de dados que criam valor para sua empresa.

Notas técnicas

O modelo teórico (Figura 1) descreve uma relação entre três construções latentes: capacidade de ciência de dados (CAP), competência central de ciência de dados (CORE) e valor da ciência de dados (VALUE). Como essas construções não podem ser medidas diretamente, os entrevistados fizeram uma série de perguntas sobre elementos específicos da construção geral.

Em vez de serem formados por uma combinação dessas pontuações de itens, as construções latentes foram projetadas para serem refletidas nos itens medidos. Por exemplo, o nível geral de capacidade de ciência de dados é refletido nas respostas a perguntas específicas sobre o uso de tecnologias de ciência de dados, o nível de habilidades técnicas e gerenciais e aspectos de uma cultura orientada a dados.

Cada construto latente foi baseado em instrumentos de pesquisa publicados anteriormente (CAP e CORE) ou avaliados durante o estudo piloto (VALUE). Antes de ajustar o modelo geral, cada construto foi verificado com uma análise fatorial confirmatória.

Algumas construções tiveram que ser simplificadas porque havia dados insuficientes para suportar o ajuste de um modelo mais complexo (por exemplo, CAP). Para outras construções, as verificações internas de validade e consistência indicaram que os dados disponíveis não suportam o modelo teórico proposto e os itens foram atribuídos a outras construções ou retirados inteiramente do modelo.

O estudo tem duas limitações principais. O primeiro é o tamanho da amostra relativamente pequeno, um problema comum nos estudos de MEV e que apresentava.