Artigo: Avaliação da qualidade na pós-graduação

QualidadeA comunidade tem perguntado sobre o caminho que estamos trilhando para construir uma pós-graduação de excelência. Encontramos opiniões divergentes, alguns acreditam que se obtém qualidade pelos altos níveis de exigência, outros por estimular o trabalho individual dos alunos. Uns pensam que a pós-graduação é uma forma de crescimento social e encaram os critérios altos como elitistas. Atualmente alguns programas de PG estão reduzindo o número de créditos com o racional que o importante é o trabalho de dissertação ou de tese. Há, ainda, a discussão sobre se vale a pena o investimento no mestrado e se o doutorado deve ser o fim último da PG, sendo o mestrado algo considerado como um prêmio de consolação para quem não consegue obter o doutorado. Certamente estamos em um período turbulento, onde poucas certezas existem. As perguntas que não querem calar são: Teremos realmente universidades de primeira linha? O que é uma universidade primeira linha? É uma universidade com prêmios Nobel? É uma universidade para onde os pesquisadores top querem trabalhar em seus sabáticos? É uma Universidade para onde os melhores alunos do mundo aplicam como forma de ter seu futuro assegurado? Este é o tema central da Avaliação da Qualidade: como avaliar a qualidade de um programa de pós-graduação, que critérios devem ser utilizados?

1. Histórico

 Esta seção está baseada na crônica “Confissões: A Universidade ontem, hoje e amanhã

Vamos começar a análise pelo relacionamento da Universidade com seus professores. Na Escola de Engenharia da UFRGS, nas décadas de ‘60s e ‘70s a grande maioria das pessoas considerava que um bom professor de engenharia era um profissional de engenharia bem sucedido que vinha ensinar para os alunos como se procedia na vida prática. Isto porque este profissional sabia como se fazem as coisas. Os poucos, ou pouquíssimos que só estavam ligados ao ensino eram chamados de leitores de livros. Isto começou a mudar quando alguns, poucos, professores da Engenharia Elétrica voltaram de um mestrado no ITA e passaram a dar ótimas aulas, com fundamentos consistentes. Junto com o Instituto de Física, naquela época um dos poucos locais da Universidade onde havia pesquisa, estes professores ofereceram cursos extras de matemática e fundamentos de física para eletrônica. Isto porque os professores ditos práticos nem conseguiam entender o que era uma transformada de Laplace. Naquela época entrava-se para a Universidade por convite do catedrático. Ai vocês percebem o problema da época, eram engenheiros ministrando aulas de Física e de Matemática e ensinado a Prática da Engenharia, só podia ser transmissão de conhecimento livresco.

O ambiente era basicamente estudar os livros, não havia a biblioteca da CAPES, aliás, ainda não haviam inventado a Web e as revistas disponíveis que eram limitadíssimas. Quando vinha um raro professor de uma Universidade no exterior só tínhamos a possibilidade de escutar o que faziam lá e nos atualizarmos. Ainda hoje há muitos colegas, que apesar das mudanças (que veremos a seguir) continuam com a visão colonial de que somente as publicações no exterior são boas. 

Mas as coisas começaram a mudar alguma pesquisa começou. Nesta época o grupo de Banco de Dados, em um projeto conjunto com a Alemanha, desenvolveu do zero um SGBD, o MINIBAN. Começamos a ter competências mais formais e a ter capacidade de desenvolver tecnologia com base conceitual sólida. Neste ponto começaram as publicações destes resultados. No início no Brasil, depois na Argentina e Chile que eram consideradas publicações internacionais. Então as coisas se aceleraram, a pesquisa ganhou fôlego, a inserção internacional aconteceu e a exigência de qualidade atingiu níveis compatíveis com o cenário de boas universidades mundiais. O processo de avaliação da CAPES, para Instituições, e do CNPq para pesquisadores atingiram um ponto em que são referências mundiais. Hoje para entrar como nos melhores grupos no Brasil o mínimo exigível é o doutorado e alguma demonstração de produção. Nossos alunos de doutorado praticamente sempre tem um período de um ano de trabalho em laboratório no exterior e tem boas publicações. 

Parece que a guerra foi ganha. Então surge o problema! A obtenção de dados quantitativos, o CV Lattes que permitiu separa o joio do trigo tornou-se um objetivo em si mesmo. O modelo, que permitiu a maturação e a transformação dos grupos brasileiros em grupos de qualidade, tornou-se uma coleta desenfreada de dados e a avaliação pelos pares ficou quase que exclusivamente centrada na avaliação de dados quantitativos por comissões do CNPq e da CAPES. Há alguns anos os programas de pós-graduação eram visitados por comissões de avaliação que analisavam os dados quantitativos, avaliavam as condições físicas e laboratórios e entrevistavam professores e alunos. O número de programas aumentou, os custos aumentaram, os recursos diminuíram e a numerologia assumiu o papel primordial na avaliação. Os jovens pesquisadores e muitas universidades quase que só veem o número de publicações e seus respectivos QUALIS. 

2. O limite na avaliação da pós-graduação

O problema descrito acima foi detectado por uma comissão internacional de avaliação, entre outros. Neste texto vou me limitar a discutir os problemas ligados à avaliação, os demais dependem de decisões políticas de nível mais alto.

A CAPES, através de sua Comissão da Área de Computação organizou em 2013 um seminário internacional de avaliação dos programas de pós-graduação.  Neste seminário [CAPES 2013] consultores internacionais fizeram uma revisão do processo de avaliação dos programas de pós-graduação em Ciência da Computação no Brasil. A reunião contou com a presença de coordenadores dos cursos de pós-graduação em Ciências de Computação, os membros da comissão de Ciência de Computação da CAPES e quatro convidados internacionais. Prof. Hans-Ulrich Heiss (TU-Berlin), Prof. John Hopcroft (Cornell University), Prof. Michel Robert (Université Montpellier 2), Prof. Eli Upfal (Brown University). No dia 18 os coordenadores dos cursos com conceito 5, 6 e 7 (UFF, IME-USP, UNICAMP, UFPE, ICM-USP, UFRGS, UFMG, COPPE-UFRJ e PIJC-Rio) apresentaram um resumo dos principais indicadores de seus cursos.

Neste encontro algumas conclusões foram apresentadas; estas conclusões foram agrupadas em três grandes grupos:

– Competição por talentos.

– Mobilidade de professores e estudantes, o que leva ao fluxo de ideias.

– Avaliação subjetiva da qualidade, em vez de dados numéricos.

Os dois primeiros grupos dependem de legislação e da implantação de programas no estilo do Erasmus.
A seguir os consultores internacionais recomendaram fortemente que:

– O Brasil deve permitir que as Universidades e os salários sejam competitivos para obter os melhores talentos, e que:

– A CAPES substitua o sistema de avaliação quantitativo (número de artigos, número de estudantes de doutorado, etc.) por uma avaliação qualitativa periódica por comitês de avaliadores externos.

A primeira recomendação é de dificílima implementação por posições políticas muito enraizadas. Este primeiro item é impossível de ser aplicado nas Universidades Públicas pela atual legislação, todos recebem o mesmo independente da qualidade de sua produção e da intensidade de seus esforços. Por outro lado poderia e deveria ser adotado pelas Universidades Privadas, Comunitárias e Confessionais na conquista de top talentos. Para isto seria necessário que a sociedade compreenda o valor de uma boa universidade e esteja disposta a bancar os custos associados. A segunda recomendação será parte central desta discussão. 

Após estas recomendações os consultores expressam sua opinião no seguinte trecho que é muito forte:

É possível perceber que há uma conclusão importante: estamos criando uma cultura orientada para a obtenção de resultados quantitativos e, ao mesmo tempo, não estamos focando na qualidade intrínseca da pesquisa e na excelência do ensino. Isto é uma realidade, sabemos que culturalmente a qualidade do ensino não é um fator considerado como ponto central nas avaliações dos professores das pós-graduações; o que conta realmente na avaliação é o número e o ranking de suas publicações. As recomendações foram, a seguir, elencadas em sete itens:

Dentro do que é possível fazer os itens 2, 3, 5 e 7 merecem um estudo mais aprofundado. O item 1 já foi discutido. O item 4 está razoavelmente atendido pelas bolsas de pós-doutorado existentes. O item 6 pode ser parcialmente atendido por projetos de pesquisa, mas seria interessante se houvesse maior estímulo a estágios mais curtos e mais específicos do que os pós-doutorados no país. 

O item 3 mostra que é preciso dar ênfase à dimensão Excelência do Ensino. Os professores-pesquisadores devem ser avaliados, também, por seus cursos de base e avançados ministrados na pós-graduação. Isto implica necessariamente na avaliação da qualidade e atualidade destes cursos. Outro ponto na avaliação desta dimensão é a qualidade dos alunos diplomados. Um dos fatos que podem dar uma indicação positiva desta dimensão seria a análise das posições e dos resultados obtidos pelos egressos dos diferentes cursos de pós-graduação.

O princípio da ideia humboldtiana de universidade é a famosa unidade indissolúvel do ensino e da pesquisa, isto é necessário para o caso em discussão a avaliação da pós-graduação em Universidades de Pesquisa com programas de pós-graduação estritos (mestrado e doutorado). Isto é uma opção da universidade, nem todas devem ou querem ser Universidades de Pesquisa, muitas preferem ser Universidade de Ensino e ai os critérios de avaliação devem ser diferentes.  Mais um problema das avaliações unidimensionais no Brasil, há um ranking único de todas as universidades, independentemente de seu estilo.

Um ponto muito preocupante é o item 7, atualmente há uma forte tendência em classificar as publicações (deveriam ser as pesquisas, mas a avalição é feita sobre publicações) em veículos que não estritamente de Ciência da Computação com menores valores do que as puras. Este comportamento prejudica fortemente a interdisciplinaridade. A pergunta a ser respondida é: A qualidade é dependente do tema? Um professor-pesquisador, por exemplo, trabalhando em bioinformática deve ter suas publicações e seus projetos alinhados com a área de biologia molecular desvalorizados? Nem entro em discussão de trabalhos mais alinhados com a área de ciências sociais ou ciências sociais aplicadas que é, ainda, mais desvalorizada pela cultura da comunidade de ciência da computação. Esta visão de feudo está matando, em muitos programas e comitês de avaliação, a multidisciplinariedade. Uma solução para manter o espírito dos programas seria aceitar um major de, digamos 66% das publicações na área do programa e um minor, de 33% em publicações nas outras áreas em que os pesquisadores fazem trabalhos multidisciplinares. 

O documento oficial da reunião de avaliação trata em detalhes estes tópicos e deve ser estudado com cuidado. Um ponto essencial tratado naquele relatório é o da multidimensionalidade da avaliação, conforme o texto a seguir. A avaliação pelos pares deve utilizar fatos mensuráveis, mas não deve ser uma fórmula matemática. Isto ficou claro na proposta dos avaliadores:

3. Multidimensionalidade

O que fica bem claro é que a avaliação deve ser multidimensional. Neste caso são propostas quatro dimensões, cada uma com seu ranking. Isto é um ponto crítico e avaliado muito bem no artigo do Prof. Moshe Y. Vardi “Academic Rankings Considered Harmful!” [Vardi 2016] que trata das consequências da aplicação de uma otimização multiobjetivos realizando o mapeamento de um espaço complexo de um programa para um espaço linear. A escolha deste mapeamento é completamente arbitrária segundo os critérios da organização que realiza este rankeamento. Os dados brutos deveriam ser disponibilizados bem como uma ferramenta para que os interessados pudessem realizar a análise segundo seus critérios e de forma adequada a seu processo decisório.

Analisando a necessidade da utilização de múltiplos critérios na avaliação dos programas de pós-graduação a figura a seguir mostra a correlação entre a colaboração interna dos pesquisadores de um programa com seu nível de avaliação pela CAPES. Este critério, objetivo, de avaliação não é considerado explicitamente na avaliação. 


Figura 1: Do artigo “Ranking Strategy for Graduate Programs Evaluation” [Lopes et al. 2011]

Aqui nota-se que há múltiplas dimensões envolvidas na avaliação da qualidade dos programas de pós-graduação em computação. A escolha de critérios únicos faz com que uma grande quantidade de informação, importante para a avaliação, seja perdida. A escolha das dimensões a serem analisadas e consideradas é dependente da decisão a ser tomada.

Um assunto que precisa ser discutido é a diversidade na pós-graduação, um aspecto da multidimensionalidade. Atualmente está aceito que a diversidade nos grupos sociais e acadêmicos é um dos melhores fatores para aumentar a eficiência e a criatividade. Culturas, gêneros e opiniões diferentes favorecem o convívio e abrem novas possibilidades para o tratamento dos temas de trabalho. Pergunto: Por que isto não acontece nas pós-graduações?. O consenso é que só devem participar dos programas professores-pesquisadores com um número alto de publicações em journals com alto fator de impacto. Mas um grupo criativo é algo bem diferente. Vejamos a sinopse do Livro “Criatividade e Grupos Criativos” de Domenico De Masi: 

A maior parte das criações humanas é obra não de gênios individuais, mas de grupos e de coletividades nos quais cooperam personalidades concretas e personalidades fantasiosas, motivadas por um líder carismático, por uma meta compartilhada. Hoje, mais do que nunca, todas as descobertas científicas e as obras-primas artísticas não decorrem do lampejo de gênio de um único autor, mas do aporte coletivo e tenaz de trabalhadores, troupes, teams, squadre, equipes. Não são mais do que etapas de um processo sem pontos de partida nem pontos de chegada, em que forças contraditórias como linhas retas e linhas curvas, razão e intuição incessantemente se alternam e entrelaçam. Talvez na sociedade pós-industrial esses dois opostos possam finalmente chegar a uma síntese feliz. Para isso, De Masi apela às neurociências, à psicanálise, à psicologia, à epistemologia e, sobretudo à sociologia – compreendendo as dinâmicas secretas do processo criativo, quem sabe não se possa aumentá-lo e colocá-lo em sintonia com a eterna aspiração humana pela felicidade.

Está na hora de repensarmos nossos critérios excludentes. Os coordenadores de programas de pós-graduação expurgam ótimos professores (que poderiam ministrar muito boas aulas) para aumentar os índices CAPES. Isto é uma exclusão. Aqueles que são dotados para a implementação também são excluídos, sobram apenas os publicadores. Alguns programas diminuem seu tamanho para melhorar os índices CAPES. Com este comportamento perdemos muitas pessoas que seriam importantes para a formação de nossos alunos e para o desenvolvimento dos projetos. Isto sem contar com a criatividade oriunda da diversidade de perfis. O ponto central não é a qualidade e criatividade do grupo, mas sua adequação à bibliometria avaliativa. Se quisermos qualidade real será preciso uma profunda mudança em nossos critérios.

4. Avaliação quantitativa e qualitativa

Fica evidente o engano na afirmação que a avaliação quantitativa é objetiva, contrastada com a avaliação por revisores externos que seria subjetiva. O modelo de mapeamento dos múltiplos critérios para um ranking unidimensional é subjetivo, portanto a avaliação quantitativa também é subjetiva. A defesa intransigente da objetividade do modelo quantitativo esconde a defesa de uma posição ideológica sobre o que deve ser a qualidade. 

Este ponto é profundamente discutido no The Leiden Manifesto for research metrics [Leiden Manifesto 2015]. Esta introdução ao manifesto é absolutamente clara:

Research evaluation has become routine and often relies on metrics. But it is increasingly driven by data and not by expert judgement. As a result, the procedures that were designed to increase the quality of research are now threatening to damage the scientific system.

Mesmo a avaliação pelos pares usa fatos observáveis, que podem ser contestados. Um exemplo bem conhecido é de conferências classificadas como A1 devido a seu h-index, mas consideradas de menor valor pela sua grande abrangência o que gera um índice muito elevado. Esta visão é típica de pessoas que trabalham em uma área restrita e não admitem que uma conferência de espectro amplo pode ser muito boas para a criação de novas sinergias. Se cada track fosse avaliado separadamente qual seria seu QUALIS? Seria menor, pois atinge um público mais restrito? Mas isto não é o que acontece em várias ótimas conferências muito focadas, e mal qualificadas pelo QUALIS? Esta é a demonstração cabal que apenas a numerologia aplicada na avaliação pode conduzir a resultados distorcidos. Uma forma de evitar este problema seria a análise individual de cada conferência, mas então a escalabilidade apregoada como o mérito da avaliação quantitativa desaparece. Uma solução, e creio que a solução é a análise de um pequeno número de artigos escolhidos pelo pesquisador. A utilização de fatos observáveis, ou seja, de índices, é necessária, desde que feita a validação de sua importância. Dos pontos abordados no relatório de avaliação [CAPES 2013] podemos citar:

O essencial do problema da dita objetividade quantitativa está claramente tratado neste item:

O mesmo aparece no The Leiden Manifesto [2015]:

Quantitative evaluation should support qualitative, expert assessment. Quantitative metrics can challenge bias tendencies in peer review and facilitate deliberation. This should strengthen peer review, because making judgements about colleagues is difficult without a range of relevant information. However, assessors must not be tempted to cede decision-making to the numbers. Indicators must not substitute for informed judgement. Everyone retains responsibility for their assessments

O Beckman Repport [2016] trata muito bem deste tema na área de banco de dados e de bigdata onde deixa claro que a contagem de citações prejudica a real análise da qualidade dos projetos. Neste comentário fica claro que grandes projetos, o conjunto de ferramentas de análise e disponibilidade de dados devem ser considerados como essenciais.

Research culture. Finally, there is much concern over the increased emphasis of citation counts instead of research impact. This discourages large systems projects, end-to-end tool building, and sharing of large datasets, since this work usually takes longer than solving point problems. Program committees that value technical depth on narrow topics over the potential for real impact are partly to blame. It is unclear how to change this culture. However, to pursue the big data agenda effectively, the field needs to return to a state where fewer publications per researcher per time unit is the norm, and where large systems projects, end-to-end tool sets, and data sharing are more highly valued.

5. Comentários sobre a avaliação e a CAPES

Aqui apresento minha visão sobre alguns pontos que tem sido amplamente discutidos nos programas de pós-graduação.

  • Fazer a classificação das conferências é um trabalho hercúleo e insano, pois são quase 2.000 títulos
    • Então precisam trocar o método! É o que venho defendendo há anos e neste artigo.
  • A CAPES afirma que o QUALIS é uma ferramenta para analisar a produção científica de um programa de pós-graduação, não para classificar revistas ou conferências, infelizmente tem sido mal empregado na comunidade.
    • Bonita afirmação, mas o que temos observado é que como os programas são avaliados por este critério aplicam a propriedade transitiva e avaliam as revistas, desculpem journals, e conferências pelo mesmo critério. Mas a CAPES avalia a produção científica pelo QUALIS. 
  • Alguns pesquisadores tem a posição de que  o caminho é publicar em eventos que são bons e que interessam para o grupo, isto sem preocupação com o QUALIS.
    • Como fazer isto com os critérios dos principais programas de pós-graduação para financiar os doutorandos exigem publicação em veículos do índice restrito ≥B1? Se fizermos o pagamento com recursos de projetos não poderemos ser responsabilizados por mau uso de recursos públicos?
  • Muitos se sentem incomodados que o SAC tivesse ficado em A1, outros se acham no direito de considerar journal de editoras sérias como ruins, e não são da área destas publicações mas gostariam de rebaixá-los.
    • A resposta é que se começarem a rebaixar sem critérios claros e quais critérios, perde-se a coerência e consistência do sistema QUALIS e teremos os casos do amigo do Rei (ou do Presidente) bem classificados. Por outro lado se o critério é bom qual a reclamação sobre o SAC? Já tratei deste assunto anteriormente neste texto.
  • E para a avaliação de um programa não será erros no QUALIS que irá fazer tanta diferença, lembrem que a avaliação não é somente quantitativa, mas também qualitativa, razão de ter uma Comissão.
    • O problema é que os programas transferem a mesma avaliação baseada no QUALIS para os seus pesquisadores. A qualidade em si não interessa, só a classificação pelo QUALIS. Esta avaliação qualitativa, sem evidências públicas e transparentes garante que não teremos os casos do amigo do Rei (ou do Presidente) bem classificados?

6. Conclusões

Com base na análise desenvolvida com apoio de importantes referências externas podemos resumir as conclusões em alguns pontos principais:

1.  A análise exageradamente quantitativa e centrada em publicações atingiu seu limite e passou a ser um problema.A análise de um número gigantesco de artigos é absurda, o envio e  análise de um pequeno número de fatos (artigos, projetos etc.)  relevantes é muito mais adequada para a avaliação criteriosa.

2. A análise da qualidade de um programa de pós-graduação é baseada em múltiplas dimensões, seu mapeamento para um ranking unidimensional implica em uma interpretação ideológica;

3. O modelo de avaliação baseado essencialmente em publicações qualificadas é reducionista e excluí ótimos professores e implementadores dos programas;

4. É necessária a ênfase em projetos amplos, incluindo múltiplos perfis e na avaliação de seus resultados e impactos e não exclusivamente em publicações.

5. Precisamos passar a ter avaliações presenciais feitas pelos pares, com consultores externos, com uma menor periodicidade (talvez a cada cinco anos) levando em conta os indicadores mensuráveis mas julgando a qualidade do programa.

7. Referências

[Lopes et al. 2011] LOPES, Giseli Rabello ; MORO, Mirella Moura ; da SILVA, Roberto ; BARBOSA, Eduardo M. ; PALAZZO Moreira de Oliveira, José ; PALAZZO Moreira de Oliveira, José . Ranking Strategy for Graduate Programs Evaluation. In: International Conference on Information Technology and Applications, 7th – (ICITA 2011), 2011, Sydney. Proceedings. Los Alamitos, CA.: IEEE, 2011. v. 1. p. 59-64. 

[CAPES 2013] Relatório do Seminário de Acompanhamento dos Programs de Pós-graduação da Area de Ciência da Computação, dias 18 a 21 de Março de 2013, Sede da CAPES, Brasília. 

[Leiden Manifesto 2015] Bibliometrics: The Leiden Manifesto for research metrics, Diana Hicks, Paul Wouters, Ludo Waltman, Sarah de Rijcke, Ismael Rafols, Nature, Vol. 520, No. 7548. (22 April 2015), pp. 429-431, DOI=http://dx.doi.org/10.1038/520429a 

[Beckman Repport 2016] Daniel Abadi, Rakesh Agrawal, Anastasia Ailamaki, Magdalena Balazinska, Philip A. Bernstein, Michael J. Carey, Surajit Chaudhuri, Surajit Chaudhuri, Jeffrey Dean, AnHai Doan, Michael J. Franklin, Johannes Gehrke, Laura M. Haas, Alon Y. Halevy, Joseph M. Hellerstein, Yannis E. Ioannidis, H. V. Jagadish, Donald Kossmann, Samuel Madden, Sharad Mehrotra, Tova Milo, Jeffrey F. Naughton, Raghu Ramakrishnan, Volker Markl, Christopher Olston, Beng Chin Ooi, Christopher Ré, Dan Suciu, Michael Stonebraker, and Todd Walter, Jennifer Widom. 2016. The Beckman report on database research. Commun. ACM 59, 2 (January 2016), 92-99. DOI=http://dx.doi.org/10.1145/2845915

[Vardi 2016] Moshe Y. Vardi. 2016. Academic rankings considered harmful!. Commun. ACM 59, 9 (August 2016), 5-5. DOI: http://dx.doi.org/10.1145/2980760