메뉴 바로가기 본문 바로가기 하단 바로가기

KOBICian’s Story

프로필사진
[16호] 바이오데이터의 올바른 의미
  • 작성자 정해영 (KOBIC 센터장/책임연구원)
  • 작성일2024-06-27 16:05:51
  • 조회수348

과거보다 ‘데이터’라는 낱말을 쓰는 일이 훨씬 많아졌습니다. 데이터 사이언티스트, 데이터 센터, 데이터 통합, 데이터 플랫폼, 데이터 스테이션… 특히 요즘 들어서 더욱 인기를 끌고 있는 인공지능 기술의 개발과 활용에 데이터가 매우 중요하게 쓰이면서 이 낱말을 더욱 자주 접하게 됩니다. 국가바이오데이터스테이션을 구축하여 운영하는 KOBICian들에게는 더욱 친숙하게 느껴질 것입니다.

 

데이터의 사전적 의미를 한번 알아보겠습니다. 라틴어 datum에서 유래한 data는 참고나 분석을 위해서 수집한 사실(facts)와 통계(statistics)라는 뜻을 지니고 있습니다. 그렇다면 데이터와 정보(information)는 어떻게 다를까요? 데이터는 단순히 사실이나 관측치를 담은 자료라면, 정보는 그 데이터를 분석하고 해석하여 유용한 지식이나 의미 있는 결과물을 도출한 것으로서 의사결정의 근거가 될 수 있는 것이라고 합니다. 정보가 더욱 체계화되어서 즉시 활용할 수 있고 농축된 상태라면, 비로소 지식(knowledge)의 위치에 오르게 될 것입니다. 물론 시대가 빠르게 변하면서 지식의 유효기간도 예전만큼 길지는 않습니다. 여담입니다만 지식과 더불어 ‘지혜’의 가치 또한 가볍게 여겨서는 안 될 것입니다.

 

국가바이오데이터스테이션(Korea BioData Station, K-BDS)이라는 용어처럼 우리는 바이오데이터(biodata)라는 말을 생물학적 데이터(biological data)의 줄임말이라는 의미로 매우 자주 사용하고 있습니다. 구글에서 바이오데이터의 뜻을 검색해 보면, 최근 추가된 AI 기반 Search Lab의 풀이인 ‘건강정보와 유전정보 등을 포함한 생명과학 데이터’가 가장 위에 나옵니다. 그러나 이러한 자동생성 뜻풀이는 실은 K-BDS 웹사이트에서 소개한 정의를 가져다 보여주는 것이라서 바이오데이터의 원래 뜻을 잘 나타내고 있다고는 보기 어렵습니다.

 

영단어 biodata의 원래 의미는 한 개인의 생애, 이력, 직업, 업적 등에 관한 자료입니다. 즉 biographical data의 줄임말로 보는 것이 더욱 타당합니다. 이 의미는 더욱 확장되어 어떤 개인의 미래 행동 등을 예측할 수 있는 데이터라는 뜻으로도 쓰인다고 합니다. 어떤 문화권에서는 바이오데이터가 이력서나 자기 소개서 정도의 의미로도 쓰입니다. 이러한 이유 때문에 KOBIC에서 바이오데이터 스테이션이라는 사업명을 구체화하기 시작하였을 때, 저는 이것이 적절치 않은 낱말 선택이라는 의견을 몇 번 낸 일이 있었던 것으로 기억합니다. 우리가 나름대로 뜻을 부여하여 신조어를 창출했다면 아무런 문제가 없지만, 이미 영어권 국가에서 다른 뜻으로 쓰이는 단어를 ‘생명과학 데이터’라고 재정의한다면 보편적으로 받아들여지기 어려울 것이 자명하기 때문입니다. 어쩌면 우리가 선택한 ‘바이오데이터’라는 용어보다 조금 길더라도 ‘바이오 연구 데이터’라고 풀어서 쓰는 것이 우리의 의도를 가장 정확히 반영하는 길이 될지도 모르겠습니다. 더욱 구체적으로는 세금을 재원으로 하여 수행한 연구로 한정하였음을 강조해야 합니다. 왜냐하면 ‘연구’의 본래 의미는 지식에 대한 탐구를 기반으로 하는 인간의 활동을 전부 아우르는 것이기 때문입니다.

 

하지만 언어는 생물과 같아서 늘 변합니다. 원래 길이 없는 곳이라 해도 사람들이 많이 다녀서 더 이상 수풀이 자라지 않고 흙이 잘 다져졌다면 길이 되는 것이고, 필요하다면 여기에 반듯한 돌이나 아스팔트를 깔게 될 것입니다. 당장의 어법에 맞지 않는 새로운 말이라 해도 시간이 흘러 많은 대중이 선택하면 표준어로 자리를 잡는 것을 우리는 늘 보아왔습니다. 마찬가지로 KOBIC이 더욱 노력하여 K-BDS의 위상이 더욱 공고해지고 모든 바이오 연구자가 즐겨 사용하는 필수 서비스로 자리를 잡는다면, 우리가 내린 바이오데이터의 정의에 대해서 과거의 저와 같이 이의를 제기하는 사람은 더 이상 나타나지 않을 것입니다.

 

지금까지 데이터는 연구자들에게나 필요한 것이라고 생각되었지만, AI 시대가 되면서 산업과 사회 전반의 데이터 의존도가 더욱 높아지고 있습니다. 이에 따라서 대량의 데이터를 사고 파는 것은 전혀 새로운 일이 아니며, 점점 많은 개인이나 단체가 데이터를 유용한 자산으로 인식하게 되었습니다. 데이터는 과연 누구의 것일까요? 국민을 대표하여 연구비를 댄 정부와 연구자의 창의성 및 노력 중에 어느 것에 더 큰 비중을 두어야 할까요? 공공에게 이익이 된다는 이유로 국가가 데이터를 모으는 것은 타당할까요? 이에 대해 분명한 대답을 내리기는 여전히 어렵습니다. 특히 헬스데이터의 경우 국가의 재원이 투입되지 않은 상태로 개인이 자기 부담으로 건강관리 차원에서 생성하는 경우도 적지 않으며, 사생활과 관련한 많은 민감한 정보를 담고 있기 때문입니다.

 

그러나 국가연구개발사업, 즉 국민이 납부한 소중한 세금을 투입하여 생성된 연구의 결과로 도출된 데이터라면 이를 다시 수집하여 재활용하는 체계를 만들어서 새로운 가치를 만들 길을 열어 주는 것은 공공의 이익을 위하여 충분히 타당한 일이라고 보아야 할 것입니다. 물론 그 과정에서 데이터 제공 주체의 사생활을 침해한다거나 옳지 못한 목적으로 데이터가 쓰이는 일이 발생하지 않도록 모든 노력을 다해야 하며, 중앙 집중적인 데이터 관리체계의 한계점을 극복할 수 있는 대안(예: federated network)에 대해서도 관심을 가질 때입니다.

 

KOBICian’s story는 KOBIC 멤버가 직접 작성하는 현장감 넘치는 글로서 KOBIC의 업무 방향이나 공식 입장과는 다를 수 있습니다.

다른 KOBICian’s Story 보기

KOBICian's Story Thumbnail

현대의 우리는 흔히 정보의 홍수 속에 살고 있다고 합니다. 하지만 너무 많은 정보는 우리가 문제를 이해하고 결정을 내리는데 더욱 어려움을 겪게 할 수도 있습니다. 이런 상황 속에서 내가 필요로 하는 정보를 효과적으로 찾을 수 있는 방법은 매우 중요합니다.

검색은 수많은 데이터에서 꼭 필요한 것만을 정확히 찾아내는 데 필수적인 수단입니다. 사람들은 자연스럽게 자신이 찾고자 하는 내용의 키워드를 고민하여 고르고 그 키워드를 입력하여 검색을 수행합니다. 이 글에서는 대표적인 검색 기법의 원리와 그 특징을 소개해 드리고자 합니다.

키워드 검색(Keyword Search)

키워드 검색은 사용자가 입력한 키워드를 기반으로 관련된 콘텐츠를 찾아주는 방법입니다. 이 방식은 사용자의 니즈를 빠르게 파악하고 관련된 정보만 노출하도록 도와줍니다.

우리가 일반적으로 사용하는 구글이나 네이버 등의 검색 방식은 키워드 검색이라 할 수 있습니다. 키워드를 입력하면 검색엔진은 수많은 웹페이지 중 해당 키워드가 포함된 웹페이지를 찾고 내부적인 연산을 통해 연관도를 계산한 다음 키워드와 가장 관련이 많을 것 같은 페이지를 순서대로 제공합니다. 이때, 연관도가 높은지 판단하는 기준은 "웹페이지 내에 키워드가 얼마나 많이 등장 하는가"라고 할 수 있습니다. 초창기 구글은 페이지랭크 알고리즘을 사용하여 웹 페이지의 중요도에 따라 검색 결과의 순위를 결정하였지만 나중에 알고리즘을 비공개로 전환하였습니다.

예를 들어 오픈소스 검색 및 분석 알고리즘인 Elasticsearch에서는 아래 수식과 같이 TF/IDF기반의 BM25알고리즘을 사용하여 연관도를 측정합니다.

 

복잡해 보이는 이 계산에는 크게 TF, IDF 그리고 Field Length 3가지 요소가 연관도를 나타내는 스코어에 영향을 줍니다. 예를 들어, 구글 등에서 쥬라기 공원이라는 검색어로 검색을 한다고 가정해보면, 해당 키워드가 5번 들어있는 웹 페이지보다는 10번 들어있는 웹페이지가 내가 찾고 싶어 하는 내용일 확률이 높을 것 입니다. 문서 내에서 검색된 키워드가 더 많을수록 점수가 높아지는 것을 TF(Term Frequency)라고 합니다. 그리고 동일한 검색에서 쥬라기 또는 공원중 어떤 단어든지 포함하고 있는 페이지들은 검색 결과에 포함될 수 있습니다. 이때 쥬라기가 포함된 결과는 10, “공원이 포함된 결과는 100개라고 가정한다면 흔한 공원보다는 희소한 쥬라기가 더 중요한 키워드일 가능성이 높습니다. 검색한 키워드를 포함하고 있는 문서 개수가 많을수록 그 키워드의 가중치가 감소하는 것을 IDF(Inverse Document Frequency)라고 합니다. 그리고 문서에서 필드길이(Field Length)가 큰 필드보다는 짧은 필드에 있는 키워드의 비중이 클 것입니다. 제목과 내용필드에 검색어가 모두 있는 경우 텍스트 길이가 긴 내용필드보다는 짧은 제목 필드의 키워드의 점수가 더 높게 나타납니다. 이처럼 키워드 검색 방식에서는 검색어에 대한 종합적인 스코어 계산을 통해 연관성이 높은 순서로 결과를 나타내줍니다.

하지만 이런 검색방식에는 여러 가지 문제점들이 나타날 수 있습니다. 실제 Elasticsearch를 사용하고 있는 바이오소재 정보 통합플랫폼(BioOne)에서도 초기에는 "liver cancer"에 대한 논문 검색 시 내용의 관련성 보다는 "Liver Cancer"저널의 논문이 주요 결과로 검색되는 등 검색 의도와는 다른 결과들이 도출되는 경우도 있었습니다.

이밖에도 키워드 검색 방식은 정확하지 않은 키워드를 입력할 경우 관련된 콘텐츠를 찾을 수 없으며, 동일한 의미를 가지는 용어들에 대해 결과가 다르게 나타날 수 있습니다. 예를 들어 야간은 같은 의미이지만 사용하는 키워드에 따라 다른 결과가 나올 수 있습니다. 반면 ”, “등과 같이 여러 가지의 의미를 가지는 용어를 키워드로 선택할 경우 사용하는 의미가 다르지만 이를 구분할 수 없어 서로 의도와 다른 검색 결과를 얻을 수도 있습니다.

 

의미 기반 검색(Semantic Search)

이런 문제를 보완할 수 있는 기술이 바로 의미기반 검색(Semantic Search)입니다. 의미 기반 검색은 단순히 키워드를 찾는 것이 아니라, 사용자 검색의 의도와 문맥적 의미를 이해하고 유사한 내용을 찾는 방식입니다.

이러한 의미 기반 검색을 가능하게 하는 것이 바로 벡터 검색 기술입니다. 먼저 질문과 문서의 내용을 숫자 형태의 벡터로 변환하는 임베딩(Embedding)과정을 수행합니다. 임베딩(Embedding)은 텍스트를 실수 벡터 형태로 표현한 결과를 의미합니다. 특정한 단어, 문장 또는 문서를 임베딩 생성 모델에 입력하면, 일정 수의 실수로 구성된 벡터가 출력됩니다임베딩의 결과는 사람이 직접 관찰하고 그 의미를 파악하기는 어렵지만컴퓨터는 서로 다른 단어 또는 문서에서 추출된 임베딩 간의 거리를 계산하여 이들 간의 의미적 관계를 이해할 수 있습니다.

(출처 : Elasticsearch Relevance Engine(ESRE))

일반적으로 고차원 벡터인 이러한 임베딩은 데이터의 본질적 의미를 포함하는 개념적 위치로 표현할 수 있습니다. 비슷한 의미, 개념 또는 맥락을 가진 항목은 이 벡터 공간에서 서로 가깝게 배치됩니다. 이 벡터들 사이의 관계를 측정해서 서로 얼마나 가까운지를 계산하여 가장 유사한 내용을 가진 문서를 우선적으로 보여주는데, 이때 유사도를 측정하는 방법으로 코사인 유사도라는 수학적 계산을 사용합니다. 결론적으로 의미 기반 검색은 벡터 검색을 기반으로 사용자의 의도에 맞는 직관적인 검색결과를 얻을 수 있어 활용도가 높고 보다 관련성이 높은 정확한 결과를 제공할 수 있습니다.

최근에는 단어나 문장을 벡터로 추출하는데 활용할 수 있는 기술로 언어 모델(Language Model)이 이용되고 있으며, 2019년 이후 BERT, GPT 등 다양한 대형 언어 모델이 많이 활용되고 있습니다.

이런 흐름에 따라, 향후 BioOne에서도 단순 키워드 검색의 다양한 문제점들을 보완하기 위해 의미기반 검색방식의 장점을 도입하고 접목하여 검색의 정확성을 높이고 효율적인 검색이 가능하도록 고도화할 계획입니다.

  • 작성자강태호
  • 작성일2025-06-02
  • 조회수44
KOBICian's Story Thumbnail

인간이 살아가면서 마주하는 가장 작은 생물체군을 보통 미생물이라고 부릅니다. 너무나 작아서 그 존재를 오랫동안 몰랐기에 본격적인 미생물 연구의 역사는 비교적 짧습니다. 미생물학에서 연대기를 거슬러 올라가다 보면 코흐의 가설이나 파스퇴르의 살균법을 지나, 레이우엔훅의 현미경 발견에까지 도달하게 됩니다. 약 400년 정도의 짧은 역사입니다. 그러나 작은 크기와 짧은 연구 역사에도 불구하고 미생물 자체는 오래전부터 주변에 어디에나 있었고, 모든 곳에 영향을 미쳤으며, 심지어 숫자도 많기에 인간의 삶 전체에서 영향을 미치고 있습니다. 술 빚기를 인류 최초의 생명공학이라 한다면, 미생물의 존재를 모르던 먼 과거에도 우리는 이미 미생물을 이용하고 있었습니다.

이런 늦은 등장에도 불구하고 유전(체)학 분야에서는 미생물이 독보적인 장점을 지닙니다. 유전체 크기가 상대적으로 작아서 연구에 이상적인 모델이기 때문입니다. 이로 인해 1995년 크레이그 벤터(Craig Venter)의 연구팀이 샷건 시퀀싱을 적용하여 인플루엔자균(Haemophilus influenzae)의 완전한 유전체 서열(약 180만 염기쌍)을 발표할 수 있었고, 이는 사상 최초로 한 생물의 “전체 유전서열 지도”를 읽어낸 획기적인 사건이었습니다. 다음해에는 1996년에는 유럽 중심의 컨소시움에서 6천개의 유전자를 가진 작은 진핵생물인 효모(Saccharomyces cerevisiae)가 해독됨으로써 인간 유전체 프로젝트(HGP)에 앞서 미생물이 유전체 시대의 개막을 이끈 결정적 계기가 되었습니다.

이러한 유전체 해독 기술의 발전은 미생물 유전체를 하나하나 분석하는 것에서 나아가, 미생물의 계통와 미생물 생태계의 방대한 유전정보를 군집수준에서 이해할 수 있는 길을 열었습니다. 이는 (1) 진화유전체학적인 관점에서 더 많은 데이터를 통해 범유전체(pangenome) 구축과 (2) 미생물군을 총칭하는 마이크로바이옴 연구의 시작이 되었습니다. 특히 미생물 군집에 관심이 있던 연구자들은 90년대 인체 미생물군을 조사하려는 시도를 했고, 1996년에는 사람 대변 샘플에서 배양여부와 상관없이 다양한 세균들을 16S rRNA 유전자 시퀀싱으로 식별하는 연구를 처음 수행했습니다. 이는 개인마다 고유한 미생물 프로파일이 있다는 발견으로 이어집니다. 또한 1998년 조 핸델스만(Jo Handelsman) 연구진은 서로 다른 미생물을 분리하여 배양하지 않고 그 유전체를 한꺼번에 분석하는 개념으로 메타유전체(Metagenomics)라는 용어를 만들었습니다. 이는 배양 불가능한 미생물까지 포함한 군집 전체의 유전정보를 다룬다는 점에서 당시까지의 미생물학 패러다임을 넘어선 혁신적인 개념이었습니다.

2000년대에 들어 시퀀싱 기술의 발전으로 비용과 분석시간이 급격히 감소하였는데, 이는 본격적으로 메타유전체 연구를 꽃피우는 배경이 되었습니다. 2004년에 크레이크 벤터팀 은 사르가소 해수의 메타유전체 분석을 통해 배양에 의존하지 않고 유전체 연구로도 수많은 신종 미생물과 유전자를 발굴할 수 있다는 가능성을 입증했습니다. 이 무렵 새로운 패러다임으로서 대규모 코호트 기반 마이크로바이옴 프로젝트들이 태동하였습니다. 선두주자는 미국 NIH는 2007년 대규모의 인간 마이크로바이옴 프로젝트(Human Microbiome Project, HMP)를 2007년 공식 출범시켰습니다. 총 두 단계로 진행된 HMP는 인체의 각각 부위에 서식하는 미생물들을 대상으로 참조용 미생물군 데이터베이스를 구축하고(1단계), 3개의 핵심 질환(염증성 장질환, 조산, 2형 당뇨)과 마이크로바이옴의 연관성 규명을 목적으로 한 전체 유전자 카탈로그(2단계)를 통해 마이크로바이옴의 역할을 구명하고자 했습니다. 유럽에서도 2008년 MetaHIT(Metagenomics of the Human Intestinal Tract) 프로젝트를 통해 인간 장내 미생물군집의 유전자 카탈로그를 구축하고 개인별 미생물 구성과 비만 및 염증성 장질환 등의 관련성을 밝히고자 했습니다. 이러한 대형 프로젝트들은 미생물 빅데이터를 구축함으로써 질병진단과 맞춤의료에 좀 더 다가가게 되었습니다. 

인간 마이크로바이옴을 넘어 2010년에는 미생물학자 롭 나이트(Rob Knight)와 잭 길버트(Jack Gilbert) 등이 주도하여 지구 마이크로바이옴 프로젝트(Earth Microbiome Project, EMP)가 시작됐는데, 전 세계의 연구자들로부터 20만 개 이상의 다양한 환경 시료를 모아 미생물 다양성과 기능을 분석하고자 했습니다. 또한 식물병리학자 제인 리치(Jan Leach)를 필두로 2015년에는 식물 마이크로바이옴 이니셔티브(Phytobiome Initiative)와 같은 농업에서의 마이크로바이옴은 단순히 분야의 연구를 넘어 원헬스(One Health) 관점에서 마이크로바이옴 데이터의 축적을 촉진시키고 있습니다. 또한 최근에는 미생물군집 수준에서의 메타전사체, 메타단백체, 메타대사체 등이 쌓여 가면서 홀로지놈(Hologenome)에서의 미생물의 역할이 조금씩 밝혀지고 있습니다.

이러한 빠른 변화 속에서 한국에서도 발맞추어 최근 한국인의 마이크로바이옴 데이터를 확보하고 이를 통해 마이크로바이옴 기반 질환규명 및 진단치료기술을 개발하고자 산업부를 시작으로 과기부, 복지부/질병청, 농진청 등의 지원을 통해  다양한 분야에서 마이크로바이옴 프로젝트가 시작되고 있습니다. 이 연장선에서 범부처적으로도 마이크로바이옴 융합연구를 위해 빅데이터 구축 및 활용 프로젝트를 준비하고 있으며, 모여진 마이크로바이옴 빅데이터는 궁극적으로 한국인 특이적인 정밀의료 구현에 유전체 정보만큼 중요한 기반이 될 것입니다.

마지막으로, 중용(中庸) 23장의 한 구절을 떠올리며 이 글을 맺고자 합니다. “작은 것에라도 정성을 다하면, 그 행동이 세상을 변화시킨다.”와 같이 “작디작은 미생물 데이터를 정성을 다해 연구하고 이해한다면, 그 결과는 세상을 건강하게 만들 수 있는 있는 힘이 될 것”이라 생각합니다.

  • 작성자전종범
  • 작성일2025-05-25
  • 조회수163
KOBICian's Story Thumbnail

저는 평소에 글 쓰는 것을 매우 좋아합니다. GenoGlobe.com이라는 개인 도메인 하위의 블로그위키에 꾸준히 글을 올리고, 원고를 써 달라는 부탁이 들어오면 거의 거절하지 않습니다. KOBICian’s Story를 운영하면서 가끔 다음번 투고자를 찾지 못했을 때, 제가 자발적으로 글을 써서 등록하기도 합니다. 원래 매주 월요일 아침 회의 때에 몇 주 뒤의 투고자를 선정하는 것이 원칙이지만, 출장이나 연휴 등으로 회의를 거르게 되면 다음번 글 쓸 사람을 미처 선정하지 못하는 일이 가끔 벌어지기도 합니다. 그래서 재미는 없겠지만 올해의 남은 기간 동안에는 사다리타기를 하여 투고 순서를 무작위로 배정할 예정입니다. 사정이 생겨서 서로 합의하여 순서를 바꾸는 것에 대해서는 자유입니다.

모든 사람이 글쓰기를 즐기는 것은 아닙니다. 개학을 며칠 앞두고 글짓기 숙제를 하느라 고생한 경험은 누구나 있을 것입니다. 특히 주제가 정해져 있지 않은 상태에서는 더욱 힘이 듭니다. 글쓰기를 즐기는 저라고 해서 늘 글감으로 장전된 상태는 아닙니다. 최근 들어서는 정성을 들여서 약간 긴 분량의 글을 쓸 일이 많았습니다. 이럴 때 ChatGPT라는 출중한 도구를 써서 글쓰기를 맡겨보고 싶은 충동이 전혀 들지 않는 것은 아닙니다. "「ChatGPT 시대의 글쓰기」라는 제목으로 공백 포함 2,600자 정도의 에세이를 써 줘”라고 명령을 해 보십시오. 제가 얻은 결과물은 제 블로그에 소개해 두었습니다(링크).

어떻습니까? 주제만 잘 정해서 제시하면 작업물 그대로 KOBICian’s Story에 올려도 손색이 없을 정도로 멋진 글이 한 편 나왔습니다(순번이 되었을 때 무슨 글을 써야 할지 고민하지 말고 이렇게 하시라고 권장하는 것은 물론 아닙니다! 초안을 다듬거나 분량을 조정할 때에는 분명히 도움이 됩니다). 인공지능은 최종적으로 검증을 한다는 전제 하에 사실 관계를 확인하거나 어떤 주장에 대한 근거를 찾는 데에는 일반적인 검색보다 무척 편리합니다. 결론을 미리 정해 놓고 이에 맞추어 논리를 전개해 나가도록 글쓰기를 요청해도 아주 잘 들어 줍니다. 예를 들어 ‘오픈 사이언스는 성배처럼 숭고하다’, ‘오픈 사이언스가 정말 성배처럼 숭고한가?’, ‘오픈 사이언스는 공허한 레토릭에 불과해’-그 어느 것으로든 가능합니다. 심지어 오픈 사이언스에 대한 20단어짜리 궤변을 써 보라 했더니, 이런 답을 합니다. 

- 오픈 사이언스는 모두를 위한 것이지만, 그래서 아무도 책임지지 않는다는 점에서 가장 민주적인 기만이다.
- 오픈 사이언스는 투명하다고 하지만, 정작 보이는 건 빈 저장소와 엑셀 표 속 예산 보고서뿐이다.
- 오픈 사이언스는 모두를 위한 것이라 주장하지만, 책임질 사람은 없고, 공은 늘 기관장 연설문으로 흘러 들어간다.

ChatGPT 4o Canvas라는 곳으로 작업 환경을 옮기면 마치 대화를 하면서 협업하며 글을 쓰는 것 같습니다. 인공지능이 일상의 모든 곳에서 스며들고 있으니, 글쓰기 분야라고 해서 이를 배척할 이유는 없습니다. 특히 효율을 생각하면 더욱 그렇습니다. 단지 제출 기한만 맞추면 되고 제출 후에는 아무도 읽지 않을 것 같은 글을 써야 할 때 ChatGPT를 이용하면 더욱 좋을 것만 같습니다. 결과물의 완성도는 분명히 더 높아지며, 이렇게 하여 절약한 시간에는 더욱 가치 있고 창의적인 일에 매달릴 수 있을 것이라고 생각하기 쉽습니다. 늘 문서를 생산하는 조직 안에서는 ‘이봐, ChatGPT 아직도 안 쓰나? 시간도 없는데 원고 좀 대충 다듬어서 가져와 봐’라는 말을 일상적으로 하게 될 것이고, 우리가 접하는 글은 외견상 수준이 점점 높아질 것입니다. 그러나 그 글이 외부로 나가게 될 때에는 과연 ChatGPT의 도움을 받았다고 자신 있게 말할 수 있을까요? 체중 감량에 성공한 할리우드 스타들이 위고비를 사용했다고 공개하고 싶지 않아 하는 것과 비슷할 것입니다.

인터넷 덕분에 쉽게 자료를 찾게 되었을 때 이를 비판하는 사람이 있었다고 합니다. 직접 발로 뛰어다니며 인터뷰를 하거나 도서관을 뒤지지 않고 컴퓨터 앞에 앉아서 키워드 몇 개를 넣어서 쉽게 자료를 찾는다면 그것은 올바르게 조사하는 자세가 아니라고. 아마 전화기가 처음 발명되었을 때에도 마찬가지가 아니었을까요? 직접 찾아가서 용건을 전해야지, 최신 기술이랍시고 이렇게 편하고 게으르게 대화를 하려 하면 되겠느냐고요. 지금은 아무도 이런 것을 가지고 비난하지 않을 것입니다. 기술 거부는 어느 시대에나 있었습니다.

결국 진정성의 측면에서 늘 고민이 따르게 됩니다. 그 진정성의 방향은 늘 공평하지도 않습니다. 제가 하는 숙제에는 ChatGPT를 이용해도 좋고, 남이 해서 나에게 내는 숙제는 정성을 들여 쓴 것이기를 바라는 양가감정을 가진 것은 아닐까요? 지브리 스튜디오 스타일로 사진 바꾸기에 얼마나 많은 사람들이 열광하였는지 우리는 잘 압니다. 진실이 아님을 서로가 다 알고 있는 상태에서는 오히려 논란의 여지가 없습니다. 그러나 진실 혹은 진정성을 기대하는 곳에서는 그렇질 못합니다. 그 누구도 효율을 이유로 자동응답기와 상담하고 싶지는 않으니까요.

인류 문명에 한번 등장하여 대다수가 그 편리함을 맛보게 된 기술을 이제는 거부할 수 없습니다. 이러한 논란을 너무 오래 하는 것도 현명하지 못합니다. 새로운 도구를 잘 활용하여 더 나은 일을 할 수 있다면 정말 좋겠습니다. 사회가 새로운 기술을 완전히 수용할 때까지는 아직 시간이 더 걸릴 것 같습니다. 지금 당장은 새로운 기술을 빨리 습득한 사람이 더 앞서가는 것처럼 보이겠지만, 5년이나 10년이 지난 뒤 사회가 어떻게 변해 있을지 상상해 보는 것도 좋을 것입니다.

 

<ChatGPT가 제안하고 자동 생성한 인포그래픽>

 

  • 작성자정해영
  • 작성일2025-05-19
  • 조회수394
TOP