Ein paper liefert Indizien, dass AI über soziodemografische cues unethische Entscheidungen in medizinischen Therapien ausgibt. Das hiesse, unsere menschlichen biases oder strukturellen Denkfehler stecken unverändert im trainierten LLM Korpus. Zusammen mit der Tendenz zum gefälligen Mittelwert sollte das größere Sorgen machen. Ich weiss nur nicht, wie man das experimentell sauber prüfen könnte?
Unaufwändig finden sich schubweise weitere papers, die Ähnliches feststellen:
Sorin, V., Korfiatis, P., Collins, J. D., Apakama, D., Omar, M., Glicksberg, B. S., Yeow, M.-E., Brandeland, M., Nadkarni, G. N., & Klang, E. (2025). Socio-Demographic Modifiers Shape Large Language Models’ Ethical Decisions. Journal of Healthcare Informatics Research. https://doi.org/10.1007/s41666-025-00211-x
Omar, M., Soffer, S., Agbareia, R., Bragazzi, N. L., Apakama, D. U., Horowitz, C. R., Charney, A. W., Freeman, R., Kummer, B., Glicksberg, B. S., Nadkarni, G. N., & Klang, E. (2025). Sociodemographic biases in medical decision making by large language models. Nature Medicine, 31(6), 1873–1881. https://doi.org/10.1038/s41591-025-03626-6
Liu, C., Zheng, J., Liu, Y., Wang, X., Zhang, Y., Fu, Q., Yu, W., Yu, T., Jiang, W., Wang, D., & Liu, C. (2025). Potential to perpetuate social biases in health care by Chinese large language models: A model evaluation study. International Journal for Equity in Health, 24(1), 206. https://doi.org/10.1186/s12939-025-02581-5
Ji, Y., Ma, W., Sivarajkumar, S., Zhang, H., Sadhu, E. M., Li, Z., Wu, X., Visweswaran, S., & Wang, Y. (2025). Mitigating the risk of health inequity exacerbated by large language models. Npj Digital Medicine, 8(1), 246. https://doi.org/10.1038/s41746-025-01576-4
